Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.
Докладчик: Тимофей Федотов
Материалы:
- Турдаков Д.Ю. «Методы разрешения лексической многозначности, основанные на семантической близости в сетях документов». Глава 2.2
- Jeh , Widom «SimRank: A Measure of Structural-Context Similarity»
- Латентно-семантический анализ. http://habrahabr.ru/blogs/algorithm/110078/
Презентация с семинара (pptx)