Распознавание и классификация именованных сущностей (1.11.11)

В докладе рассказывается о проблеме извлечения из текста и классификации именованных сущностей (named entity), некоторых методах их распознавания, приводятся наиболее часто используемые для этого признаки. Особое внимание уделено вопросу тегирования последовательностей и персептронному алгоритму.

Докладчик: Кристина Чуприна

Bibliography:

David Nadeau, Satoshi Sekine. A survey of named entity recognition and classification. 2007.
Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. 2002.
Yoav Freund, Robert E. Schapire. Large Margin Classification Using the Perceptron Algorithm. 1998.

Презентация с семинара (pdf)

Извлечение информации из табличных данных (25.10.11)

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.

Докладчик: Никита Астраханцев

Материалы:

Н.А. Астраханцев. Исследование и разработка методов извлечения объектов и их атрибутов из таблиц текстовых документов. (http://modis.ispras.ru/seminar/wp-content/uploads/2011/05/Astrakhantsev_thesis.pdf)
N. Astrakhantsev. Extracting Objects and Their Attributes from Tables in Text Documents // Proceedings of SYRCoDIS. Moscow, 2011. P. 34-37. (http://ceur-ws.org/Vol-735/paper6.pdf)
A. C. Silva, A. Jorge, L. Torgo. Design of an end-to-end method to extract information from tables // International Journal of Document Analysis and Recognition. 2006. 8. N 2-3. P. 144-171 (http://homepages.inf.ed.ac.uk/s0568318/tablesIJDAR.pdf)

Презентация с семинара (pdf)

Общие вопросы

Добавил раздел общие вопросы на страничку Ликбез. В этом разделе содержатся ссылки на хорошие статьи о научной работе с ресурса machinelearning.ru. Всем студентам будет полезно ознакомится.

Введение в информационный поиск (18.10.11)

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные.

Докладчик: Марина Макиенко

Материалы:

Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”, Cambridge University Press. 2008. (Глава 6)

Презентация к семинару (pptx)

Меры семантической близости (11.10.11)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Турдаков Д.Ю. «Методы разрешения лексической многозначности, основанные на семантической близости в сетях документов». Глава 2.2
Jeh , Widom «SimRank: A Measure of Structural-Context Similarity»
Латентно-семантический анализ. http://habrahabr.ru/blogs/algorithm/110078/

Презентация с семинара (pptx)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for Октябрь, 2011

Распознавание и классификация именованных сущностей (1.11.11)

Извлечение информации из табличных данных (25.10.11)

Общие вопросы

Введение в информационный поиск (18.10.11)

Меры семантической близости (11.10.11)