Задача извлечения терминологии заключается в поиске специфичных терминов, то есть текстовых представлений концепций определенной предметной области, в коллекции документов. Общий алгоритм решения данной задачи состоит из трех этапов:

  1. Извлечение кандидатов, то есть слов и словосочетаний, которые могут являться терминами.
  2. Вычисление признаков, позволяющих распознавать термины среди кандидатов, например: TF, TF*IDF, CValue, Domain Relevance, Domain Consensus, Lexical Cohesion, T-test.
  3. Распознавание терминов с помощью некоторой эвристики или алгоритма машинного обучения.

В докладе детально рассматривается каждый из этапов. Будет приведено описание и сравнение основных методов распознавания терминов. Особое внимание уделяется методам, основанным на машинном обучении. Будет показано, что такие методы требуют малое количество данных для обучения и показывают наилучшие результаты. Также будут представлены наиболее эффективные наборы признаков для решения поставленной задачи.

Докладчик: Денис Федоренко

Материалы:

  1. M. Pazienza, M. Pennacchiotti, and F. Zanzotto. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge Mining, pages 255–279, 2005.
  2. Lars Ahrenberg. Term extraction: A review draft version 091221. 2009.
  3. Ziqi Zhang, Christopher Brewster, and Fabio Ciravegna. A comparative evaluation of term recognition algorithms. In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC08), Marrakech, Morocco, 2008.
  4. A. Patry and P. Langlais. Corpus-based terminology extraction. In Terminology and Content Development–Proceedings of 7th International Conference On Terminology and Knowledge Engineering, Litera, Copenhagen, 2005.
  5. J. Foo. Term extraction using machine learning. 2009.

Презентация с семинара