Методы и проблемы извлечения информации из текстов (30.10.12)

Извлечение информации (information extraction) — это одно из направлений обработки текста на естественном языке, заключающееся в автоматическом извлечении структурированных данных из неструктурированных документов. В докладе будут рассмотрены основные задачи, возникающие при извлечении информации: распознавание именованных сущностей(Named-entity
recognition), извлечение отношений(Relation extraction), временной анализ(Temporal analysis) и извлечение событий(Event detection), а также принятые подходы для решения этих задач и возникающие при этом проблемы.

Докладчик: Алексей Лагута

Материалы:

Dan Jurafsky, James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall Series in Artificial Intelligence.

Семинар 23.10.12 отменен

Внимание! Сегодня (23.10.12) семинара не будет. Доклад перенесен на следующий вторник.

Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных (16.10.12)

Кластеризация — задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластеризация является одной из фундаментальных задач в Data Mining и активно применяется в прогнозировании, анализе текстов, сегментации изображений и других областях.
В докладе рассматривается алгоритм кластеризации на основе отношения α-квазиэквивалентности и проводится сравнение его эффективности с классическими иерархическими алгоритмами, такими как Greedy Agglomerative/Divisive Clustering и Bisecting k-means, на синтетических наборах данных.

Докладчик: Максим Варламов

Материалы:

Баргесян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007.
A.K. Jain, M.N. Murty, P.J. Flynn. Data Clustering. 1999.
Yaling Pei, Osmar Zaïane. A synthetic data generator for clustering and outlier analysis. 2006.

Презентация с семинара (pdf)

Методы нормализации слов русского языка (09.10.12)

Нормализация слов естественных языков — приведение их к начальной форме — одна из проблем прикладной лингвистики, актуальная для информационного поиска, машинного перевода и других задач обработки текста. Как правило, задача нормализации разбивается на стемминг (поиск неизменяемой части слова) и синтез нормальной формы.
В докладе будут рассмотрены существующие методы нормализации естественных языков, имеющие реализацию для обработки русских слов.

Докладчик: Оксана Астапова

Материалы:

Ilya Segalovich “A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine”, 2003
“Russian stemming algorithm” http://snowball.tartarus.org/algorithms/russian/stemmer.html
А. Коваленко «Вероятностный морфологический анализатор русского и украинского языков» , 2002 http://www.keva.ru/stemka/stemka.html

Презентация с семинара (pdf)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for Октябрь, 2012

Методы и проблемы извлечения информации из текстов (30.10.12)

Семинар 23.10.12 отменен

Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных (16.10.12)

Методы нормализации слов русского языка (09.10.12)