Posts Tagged ‘Астраханцев Никита’

Методы извлечения терминов из коллекции текстов предметной области (28.10.14)

Автоматическое извлечение терминов является важным этапом во многих задачах, связанных с обработкой текстов предметной области. К таким задачам относятся построение глоссариев, тезаурусов или онтологий, информационный поиск, извлечение информации, машинный перевод, классификация и кластеризация документов и другие. К настоящему времени разработано множество методов автоматического извлечения терминов, однако их качество остается достаточно низким, при этом большая часть методов существенно зависит от языка и предметной области входных текстов.
В докладе рассматриваются наиболее популярные методы извлечения терминов из коллекции текстов предметной области, а также предлагаются новые методы, основанные на использовании Википедии и алгоритмов обучения на положительных и неразмеченных примерах.

Докладчик: Никита Астраханцев

Презентация: atr_presentation

Видео: http://www.youtube.com/watch?v=jeEbbq_Rxqc

Автоматическое обогащение неформальной онтологии на основе текстов определенной предметной области (26.03.2013)

Концептуализация знаний, необходимых для эффективной обработки текстовой информации, как правило, представляется в виде онтологий. В зависимости от предметной области и решаемых задач, создаются разные виды онтологий: формальные, включающие в себя подробные отношения между концептами и аксиомы; таксономии, представляющие собой иерархически организованные концепты; неформальные онтологии, например интернет-энциклопедии, которые создаются и поддерживаются сообществом пользователей. Создание онтологий вручную — трудоемкий и дорогостоящий процесс, требующий участия экспертов, поэтому за последние годы было разработано множество систем, в той или иной степени автоматизирующих этот процесс.

В докладе предлагается краткий обзор методов автоматического построения и обогащения онтологий, а также рассматривается прототип системы, предназначенной для автоматического обогащения неформальной онтологии на основе коллекции текстовых документов определенной предметной области.

Докладчик: Никита Астраханцев

Материалы:

  1. Н.А. Астраханцев, Д.Ю. Турдаков. “Методы автоматического построение и обогащения неформальных онтологий”. Программирование, Т.39, №1, с. 23-34, 2013.
  2. C. Biemann. Ontology Learning from Text: A Survey of Methods. LDV Forum, vol. 20, pp. 75-93, 2005.
  3. A. Faatz, S. Hörmann, C. Seeberg, and R. Steinmetz, “Conceptual enrichment of ontologies by means of a generic and configurable approach,” in Proceedings of the ESSLLI 2001 Workshop on Semantic Knowledge Acqusition and Categorisation, 2001.
  4. P. Buitelaar, P. Cimiano, and B. Magnini, Ontology Learning from Text: Methods, Evaluation And Applications, ser. Frontiers in Artificial Intelligence and Applications. IOS Press, 2005.

Презентация с семинара

Извлечение отношений из текста (20.03.12)

Доклад посвящен задаче извлечения отношений из текста с целью восстановления значений атрибутов в частично заполненных отношениях (кортежах). Задача восстановления заключается в том, чтобы найти значения для таких атрибутов, удовлетворяющие исходному отношению. Поиск значений атрибутов осуществляется в текстовой коллекции на основе связей, полученных с помощью обучающих данных — кортежей, удовлетворяющих исходному отношению, в которых известны все значения атрибутов. В качестве примера может быть рассмотрена задача восстановить пропущенное значение в кортеже «Google — ?» на основе кортежей «Microsoft — Redmond» и «IBM — Armonk».
В докладе рассматриваются существующие системы извлечения отношений из текста (DIPRE, Snowball), а также собственная реализация системы, ориентированная на восстановление строк с пропущенными атрибутами.

Докладчик: Денис Федоренко

Материалы:

  1. Nguyen Bach, Sameer Badaskar. A Survey on relation extraction (http://www.cs.cmu.edu/~nbach/papers/A-survey-on-Relation-Extraction-Slides.pdf)
  2. Sergey Brin. Extracting Patterns and Relations from the World Wide Web (http://ilpubs.stanford.edu:8090/421/1/1999-65.pdf)
  3. Eugene Agichtein, Luis Gravano. Snowball: Extracting Relations from Large Plain-Text Collections (http://www.mathcs.emory.edu/~eugene/papers/dl00.pdf)

презентация с семинара (pdf)

Извлечение информации из табличных данных (25.10.11)

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.

Докладчик:  Никита Астраханцев

Материалы:

Презентация с семинара (pdf)

Модель Conditional Random Fields (02.03.10)

Доклад посвящен статистической модели Conditional Random Fields (CRF), наиболее часто используемой в приложениях связанных с  обработкой. Во введении делается краткий обзор и сравнение методов машинного обучения, используемых для классификации: наивный байесовский классификатор; метод максимальной энтропии (метод логистической регрессии); скрытая марковская модель. Далее подробно рассматриваются модели Linear-chain CRF и Conditional Random Fields, предлагаются методы оценки параметров моделей, в том числе с учетом проблемы переобучения. В заключении обсуждаются актуальные приложения CRF.

Докладчик: Астраханцев Никита.

Материалы:

Презентация с семинара (pdf)