13 — Март — 2013 — Управление данными и информационные системы

Задача извлечения терминологии заключается в поиске специфичных терминов, то есть текстовых представлений концепций определенной предметной области, в коллекции документов. Общий алгоритм решения данной задачи состоит из трех этапов:

Извлечение кандидатов, то есть слов и словосочетаний, которые могут являться терминами.
Вычисление признаков, позволяющих распознавать термины среди кандидатов, например: TF, TF*IDF, CValue, Domain Relevance, Domain Consensus, Lexical Cohesion, T-test.
Распознавание терминов с помощью некоторой эвристики или алгоритма машинного обучения.

В докладе детально рассматривается каждый из этапов. Будет приведено описание и сравнение основных методов распознавания терминов. Особое внимание уделяется методам, основанным на машинном обучении. Будет показано, что такие методы требуют малое количество данных для обучения и показывают наилучшие результаты. Также будут представлены наиболее эффективные наборы признаков для решения поставленной задачи.

Докладчик: Денис Федоренко

Материалы:

M. Pazienza, M. Pennacchiotti, and F. Zanzotto. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge Mining, pages 255–279, 2005.
Lars Ahrenberg. Term extraction: A review draft version 091221. 2009.
Ziqi Zhang, Christopher Brewster, and Fabio Ciravegna. A comparative evaluation of term recognition algorithms. In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC08), Marrakech, Morocco, 2008.
A. Patry and P. Langlais. Corpus-based terminology extraction. In Terminology and Content Development–Proceedings of 7th International Conference On Terminology and Knowledge Engineering, Litera, Copenhagen, 2005.
J. Foo. Term extraction using machine learning. 2009.

Презентация с семинара

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for Март 13th, 2013

Методы извлечения терминологии (19.03.2013)