Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Презентация с семинара (pptx)