Archive for Октябрь, 2011

Распознавание и классификация именованных сущностей (1.11.11)

В докладе рассказывается о проблеме извлечения из текста и классификации именованных сущностей (named entity), некоторых методах их распознавания, приводятся наиболее часто используемые для этого признаки. Особое внимание уделено вопросу тегирования последовательностей и персептронному алгоритму.

Докладчик: Кристина Чуприна

Bibliography:

  • David Nadeau, Satoshi Sekine. A survey of named entity recognition and classification. 2007.
  • Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. 2002.
  • Yoav Freund, Robert E. Schapire. Large Margin Classification Using the Perceptron Algorithm. 1998.

Презентация с семинара (pdf)

Извлечение информации из табличных данных (25.10.11)

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.

Докладчик:  Никита Астраханцев

Материалы:

Презентация с семинара (pdf)

Введение в информационный поиск (18.10.11)

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные.

Докладчик: Марина Макиенко

Материалы:

  • Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”,  Cambridge University Press. 2008. (Глава 6)

Презентация к семинару (pptx)

Меры семантической близости (11.10.11)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Презентация с семинара (pptx)