Под семантической близостью концепций или текстов понимают меру, отражающую степень их смысловой связанности. Методы расчета семантической близости находят применение в задачах дизамбигуации, классификации и кластеризации текстов, разрешения кореферентности, фасет-навигации и многих других.
В связи с ростом популярности использования Википедии как базы знаний для различных приложений обработки текстов и, в частности, для расчёта семантической близости между концепциями, важно как можно более полно использовать содержащуюся в ней информацию о концепциях и связях между ними.
Данный доклад посвящен оценке семантической близости концепций с использованием длины кратчайшего пути между соответствующими им статьями в графе ссылок/категорий Википедии. Учитываются различные типы ссылок между концепциями. Методы на основе кратчайших путей сравниваются с мерой Дайса, используемой в системе Текстерра, как с помощью пар концепций, размеченных экспертными оценками близости, так и in vivo на примере задаче дизамбигуации.
Докладчик: Максим Варламов
Презентация (pdf)