Кластеризация текстовых документов, то есть разбиение множества документов на близкие по смыслу подмножества, является фундаментальной задачей обработки текстов. Ее результаты используются во многих прикладных задачах (таких как информационный поиск, исследовательский поиск, определение спама).
Данный доклад посвящен обзору и экспериментальному сравнению методов кластеризации текстовых документов в приложении к научным статьям. В ходе доклада будут рассмотрены методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).

Докладчик: Павел Пархоменко