Лексическая многозначность – неотъемлемое свойство естественного языка, заключающееся в том, что слова и словосочетания могут иметь различную смысловую нагрузку в зависимости от окружающего их контекста. В компьютерной лингвистике задача автоматического определения корректных значений слов называется задачей разрешения лексической многозначности (РЛМ). Данная задача является одной из важнейших проблем обработки текстов.
Центральной частью любого современного метода РЛМ является база знаний – источник терминов, их возможных значений (концептов) и связей между ними. В последнее время наибольшее развитие получили методы РЛМ, база знаний которых основана на Википедии – огромном быстрорастущий ресурсе, покрывающем множество предметных областей. В роли концептов в таких базах знаний обычно выступают статьи Википедии, а в роли терминов – текстовые ссылки на них.
Задача поиска терминов в заданном тексте и связывание их с соответствующими статьями Википедии называется задачей викификации. Данная задача имеет такие важные приложения, как семантический поиск, классификация текстов и др.

Докладчик: Денис Федоренко

Презентация (pdf)

Литература

* Milne D., Witten I. H. Learning to link with wikipedia //Proceedings of the 17th ACM conference on Information and knowledge management. – ACM, 2008. – С. 509-518.
* Ratinov L. et al. Local and global algorithms for disambiguation to wikipedia //Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. – Association for Computational Linguistics, 2011. – С. 1375-1384.
* Cheng X., Roth D. Relational Inference for Wikification //Urbana. – 2013. – Т. 51. – С. 61801.
* Cai Z. et al. Wikification via link co-occurrence //Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. – ACM, 2013. – С. 1087-1096.