Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts in Аннотации

Машины Опорных Векторов – это семейство алгоритмов классификации вида “обучение с учителем”. В докладе будут рассмотрены: Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных, SVM как задача квадратичного программирования, Ядровые функции и ядровой переход. Все необходимые теоремы и понятия алгебры и  оптимизации будут введены по ходу доклада. Докладчик:  Алексей Сильвестров Литература: http://cs229.stanford.edu/notes/cs229-notes2.pdf – Стенфордский курс Machine Learning http://www.machinelearning.ru/wiki/images/2/25/SMAIS11_SVM.pdf – с/к СМАИС […]

В докладе рассказывается о проблеме извлечения из текста и классификации именованных сущностей (named entity), некоторых методах их распознавания, приводятся наиболее часто используемые для этого признаки. Особое внимание уделено вопросу тегирования последовательностей и персептронному алгоритму. Докладчик: Кристина Чуприна Bibliography: David Nadeau, Satoshi Sekine. A survey of named entity recognition and classification. 2007. Michael Collins. Discriminative training methods for […]

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в […]

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные. Докладчик: Марина Макиенко Материалы: Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”,  Cambridge University Press. 2008. (Глава 6) Презентация к семинару (pptx)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, […]

31 мая на семинаре будет заслушана диссертация “Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа.” В последнее время объем информации, включая текстовую информацию, растет ускоренными темпами и в этом мощном потоке  множеству специалистов различных профессий приходится находить нужные им сведения. В связи с этим появилась необходимость обеспечить средства автоматизации, как поиска, […]

В докладе освещены шаблоны проектирования распределенных программ в модели MapReduce. В частности уделяется особое внимание разработке для фреймворка Apache Hadoop. Будут рассмотрены проблемы хранения промежуточных данных, сортировки пар ключ-значение по значению(secondary sorting), очередности вычисления данных(например, при вычислении числителя, знаменателя и их отношения). Докладчик: Алексей Сильвестров Материалы: Jimmy Lin and Chris Dyer. Data-Intensive Text Processing with […]

Key-Value storage – это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. – Riak – написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo – основа системы […]

Распределённые базы данных – базы данных построенные на распределенных файловых системах, работающие одновременно на нескольких связанных серверах. После того, как в 2004 году Google представил свою систему BigTable, появились еще 2 другие open-source реализации Hadoop Hbase написанная на Java, и HyperTable на С++. В докладе будут рассмотрены механизмы каждой системы, а так же их различия. […]

MapReduce – это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce – первой реализации модели MapReduce, и об Apache Hadoop – реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere. Докладчик: Гомзин Андрей Материалы: MapReduce, Sawzall: MapReduce: Simplified Data Processing on Large Cluster […]