Posts Tagged ‘Федоренко Денис’

Современные методы викификации (25.03.14)

Лексическая многозначность — неотъемлемое свойство естественного языка, заключающееся в том, что слова и словосочетания могут иметь различную смысловую нагрузку в зависимости от окружающего их контекста. В компьютерной лингвистике задача автоматического определения корректных значений слов называется задачей разрешения лексической многозначности (РЛМ). Данная задача является одной из важнейших проблем обработки текстов.
Центральной частью любого современного метода РЛМ является база знаний — источник терминов, их возможных значений (концептов) и связей между ними. В последнее время наибольшее развитие получили методы РЛМ, база знаний которых основана на Википедии — огромном быстрорастущий ресурсе, покрывающем множество предметных областей. В роли концептов в таких базах знаний обычно выступают статьи Википедии, а в роли терминов — текстовые ссылки на них.
Задача поиска терминов в заданном тексте и связывание их с соответствующими статьями Википедии называется задачей викификации. Данная задача имеет такие важные приложения, как семантический поиск, классификация текстов и др.

Докладчик: Денис Федоренко

Презентация (pdf)

Литература

* Milne D., Witten I. H. Learning to link with wikipedia //Proceedings of the 17th ACM conference on Information and knowledge management. – ACM, 2008. – С. 509-518.
* Ratinov L. et al. Local and global algorithms for disambiguation to wikipedia //Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. – Association for Computational Linguistics, 2011. – С. 1375-1384.
* Cheng X., Roth D. Relational Inference for Wikification //Urbana. – 2013. – Т. 51. – С. 61801.
* Cai Z. et al. Wikification via link co-occurrence //Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. – ACM, 2013. – С. 1087-1096.

Методы извлечения терминологии (19.03.2013)

Задача извлечения терминологии заключается в поиске специфичных терминов, то есть текстовых представлений концепций определенной предметной области, в коллекции документов. Общий алгоритм решения данной задачи состоит из трех этапов:

  1. Извлечение кандидатов, то есть слов и словосочетаний, которые могут являться терминами.
  2. Вычисление признаков, позволяющих распознавать термины среди кандидатов, например: TF, TF*IDF, CValue, Domain Relevance, Domain Consensus, Lexical Cohesion, T-test.
  3. Распознавание терминов с помощью некоторой эвристики или алгоритма машинного обучения.

В докладе детально рассматривается каждый из этапов. Будет приведено описание и сравнение основных методов распознавания терминов. Особое внимание уделяется методам, основанным на машинном обучении. Будет показано, что такие методы требуют малое количество данных для обучения и показывают наилучшие результаты. Также будут представлены наиболее эффективные наборы признаков для решения поставленной задачи.

Докладчик: Денис Федоренко

Материалы:

  1. M. Pazienza, M. Pennacchiotti, and F. Zanzotto. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge Mining, pages 255–279, 2005.
  2. Lars Ahrenberg. Term extraction: A review draft version 091221. 2009.
  3. Ziqi Zhang, Christopher Brewster, and Fabio Ciravegna. A comparative evaluation of term recognition algorithms. In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC08), Marrakech, Morocco, 2008.
  4. A. Patry and P. Langlais. Corpus-based terminology extraction. In Terminology and Content Development–Proceedings of 7th International Conference On Terminology and Knowledge Engineering, Litera, Copenhagen, 2005.
  5. J. Foo. Term extraction using machine learning. 2009.

Презентация с семинара

Извлечение отношений из текста (20.03.12)

Доклад посвящен задаче извлечения отношений из текста с целью восстановления значений атрибутов в частично заполненных отношениях (кортежах). Задача восстановления заключается в том, чтобы найти значения для таких атрибутов, удовлетворяющие исходному отношению. Поиск значений атрибутов осуществляется в текстовой коллекции на основе связей, полученных с помощью обучающих данных — кортежей, удовлетворяющих исходному отношению, в которых известны все значения атрибутов. В качестве примера может быть рассмотрена задача восстановить пропущенное значение в кортеже «Google — ?» на основе кортежей «Microsoft — Redmond» и «IBM — Armonk».
В докладе рассматриваются существующие системы извлечения отношений из текста (DIPRE, Snowball), а также собственная реализация системы, ориентированная на восстановление строк с пропущенными атрибутами.

Докладчик: Денис Федоренко

Материалы:

  1. Nguyen Bach, Sameer Badaskar. A Survey on relation extraction (http://www.cs.cmu.edu/~nbach/papers/A-survey-on-Relation-Extraction-Slides.pdf)
  2. Sergey Brin. Extracting Patterns and Relations from the World Wide Web (http://ilpubs.stanford.edu:8090/421/1/1999-65.pdf)
  3. Eugene Agichtein, Luis Gravano. Snowball: Extracting Relations from Large Plain-Text Collections (http://www.mathcs.emory.edu/~eugene/papers/dl00.pdf)

презентация с семинара (pdf)

Языковые модели (7.12.10)

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.)

Докладчик: Федоренко Денис

Материалы:

  • Jurafsky D., Martin G.H. Speech and Language Processing
  • Y.H. Witten and T.C. Bell. The Zero-Frequency Problem: Estimating the Probabilities of Novel Events in Adaptive Text Compression.

Презентация с семинара (ppt)