e-mail: pastukhov@ispras.ru
Темы работ для студентов
- «Сравнение техник MinHash и SimHash для поиска дубликатов научных статей.»
Для поиска дубликатов в больших коллекциях документов невозможно сравнивать их попарно. При этом большинство алгоритмов работает с парами документов. Техники MinHash и SimHash позволяют избавиться от сравнения всех пар документов. При этом неизвестно какой именно подход и как лучше использовать в каждом конкретном случае.
Задача: Исследовать техники MinHash и SimHash и использовать их для решения задачи поиска дубликатов в коллекции статей (в виде TEI). Проанализировать результаты.
Литература: см. References в статье Википедии (MinHash)