Пастухов Роман Константинович

e-mail: pastukhov@ispras.ru

Темы работ для студентов

  • «Сравнение техник MinHash и SimHash для поиска дубликатов научных статей

    Для поиска дубликатов в больших коллекциях документов невозможно сравнивать их попарно. При этом большинство алгоритмов работает с парами документов. Техники MinHash и SimHash позволяют избавиться от сравнения всех пар документов. При этом неизвестно какой именно подход и как лучше использовать в каждом конкретном случае.

    Задача: Исследовать техники MinHash и SimHash и использовать их для решения задачи поиска дубликатов в коллекции статей (в виде TEI). Проанализировать результаты.

    Литература: см. References в статье Википедии (MinHash)