Задачи дедупликации данных и сопоставления сущностей (10.11.2015)

В современном мире создается и поддерживается большое количество баз данных, содержащих информацию обо всем на свете. Магазины ведут базы клиентов, поставщиков, товаров. Больницы хранят информацию о пациентах. Библиотеки хранят каталоги публикаций.

Совершенно неудивительно, что в результате возникает избыточность. Причин у нее несколько: избыточность внутри одной базы может возникать из-за недостаточно формального формата записи данных или из-за банальных ошибок при первичном вводе. Очевидная причина избыточности между разными базами — отсутствие централизации, причем даже если составители двух разных баз будут знать друг о друге, унификация может быть затруднена из-за разных регламентов заполнения баз.
В результате, поиск актуальной, полной и точной информации о представленных в базах данных сущностях становится нетривиальной задачей, представляющей большой практический и исследовательский интерес по крайней мере последние 50 лет.

В ходе доклада я более подробно расскажу о различных вариантах постановки задачи дедупликации, общепринятой последовательности шагов для её решения и об одном из наиболее важных из них — сопоставлении сущностей. Кроме того, я расскажу о результатах выполненного летом проекта посвященного решению задачи сопоставления сущностей с помощью методов машинного обучения.

Докладчик: Ярослав Недумов
Слайды (предварительные):EntityMatching.pdf

Comments are closed.