Archive for Октябрь, 2012

Методы и проблемы извлечения информации из текстов (30.10.12)

Извлечение информации (information extraction) — это одно из направлений обработки текста на естественном языке, заключающееся в автоматическом извлечении структурированных данных из неструктурированных документов. В докладе будут рассмотрены основные задачи, возникающие при извлечении информации: распознавание именованных сущностей(Named-entity
recognition), извлечение отношений(Relation extraction), временной анализ(Temporal analysis) и извлечение событий(Event detection), а также принятые подходы для решения этих задач и возникающие при этом проблемы.

Докладчик: Алексей Лагута

Материалы:

  • Dan Jurafsky, James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall Series in Artificial Intelligence.

Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных (16.10.12)

Кластеризация — задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластеризация является одной из фундаментальных задач в Data Mining и активно применяется в прогнозировании, анализе текстов, сегментации изображений и других областях.
В докладе рассматривается алгоритм кластеризации на основе отношения α-квазиэквивалентности и проводится сравнение его эффективности с классическими иерархическими алгоритмами, такими как Greedy Agglomerative/Divisive Clustering и Bisecting k-means, на синтетических наборах данных.

Докладчик: Максим Варламов

Материалы:

  1. Баргесян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
  2. Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007.
  3. A.K. Jain, M.N. Murty, P.J. Flynn. Data Clustering. 1999.
  4. Yaling Pei, Osmar Zaïane. A synthetic data generator for clustering and outlier analysis. 2006.

Презентация с семинара (pdf)

Методы нормализации слов русского языка (09.10.12)

Нормализация слов естественных языков — приведение их к начальной форме — одна из проблем прикладной лингвистики, актуальная для информационного поиска, машинного перевода и других задач обработки текста. Как правило, задача нормализации разбивается на стемминг (поиск неизменяемой части слова) и синтез нормальной формы.
В докладе будут рассмотрены существующие методы нормализации естественных языков, имеющие реализацию для обработки русских слов.

Докладчик: Оксана Астапова

Материалы:

  1. Ilya Segalovich “A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine”,  2003
  2. “Russian stemming algorithm” http://snowball.tartarus.org/algorithms/russian/stemmer.html
  3. А. Коваленко «Вероятностный морфологический анализатор русского и украинского языков» , 2002 http://www.keva.ru/stemka/stemka.html

Презентация с семинара (pdf)