Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts in Аннотации

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в […]

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные. Докладчик: Марина Макиенко Материалы: Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”,  Cambridge University Press. 2008. (Глава 6) Презентация к семинару (pptx)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, […]

31 мая на семинаре будет заслушана диссертация “Создание модели открытой системы автоматизированной обработки текста и инструментальных средств его анализа.” В последнее время объем информации, включая текстовую информацию, растет ускоренными темпами и в этом мощном потоке  множеству специалистов различных профессий приходится находить нужные им сведения. В связи с этим появилась необходимость обеспечить средства автоматизации, как поиска, […]

В докладе освещены шаблоны проектирования распределенных программ в модели MapReduce. В частности уделяется особое внимание разработке для фреймворка Apache Hadoop. Будут рассмотрены проблемы хранения промежуточных данных, сортировки пар ключ-значение по значению(secondary sorting), очередности вычисления данных(например, при вычислении числителя, знаменателя и их отношения). Докладчик: Алексей Сильвестров Материалы: Jimmy Lin and Chris Dyer. Data-Intensive Text Processing with […]

Key-Value storage – это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. – Riak – написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo – основа системы […]

Распределённые базы данных – базы данных построенные на распределенных файловых системах, работающие одновременно на нескольких связанных серверах. После того, как в 2004 году Google представил свою систему BigTable, появились еще 2 другие open-source реализации Hadoop Hbase написанная на Java, и HyperTable на С++. В докладе будут рассмотрены механизмы каждой системы, а так же их различия. […]

MapReduce – это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce – первой реализации модели MapReduce, и об Apache Hadoop – реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere. Докладчик: Гомзин Андрей Материалы: MapReduce, Sawzall: MapReduce: Simplified Data Processing on Large Cluster […]

Apache Mahout – это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов […]

В докладе кратко освещены наиболее значимые технологий стека Apache Hadoop: MapReduce, HBase, ZooKeeper, Hive, Pig и некоторые другие. Также подробно рассмотрена распределённая файловая система Hadoop Distributed File System, отвечающая требованиям производительности, масштабируемости, надёжности и высокой доступности данных. Описаны ключевые архитектурные особенности HDFS и приведены результаты бенчмарков. Доклад состоится 15 марта. Начало в 19.00. Докладчик: Рябов […]