Доклад посвящен результатам совместного проекта с фирмой 1С о решении задачи нормализации информации.
Нормализация информации – сложная дорогостоящая задача, решаемая с помощью привлечения большого количества экспертов. Автоматизация их работы может позволить существенно снизить издержки. Основная возникающая при этом проблема – отсутствие формальных описаний знаний экспертов, а также формальной постановки решаемой ими задачи. Существующие средства позволяют упростить для экспертов рутинные подзадачи, которые хорошо формализуются (например поиск, в том числе нечеткий) однако более сложные операции, составляющие основную сложность работы эксперта, не автоматизированы никак.
В докладе будет подробно рассказано о задаче нормализации, а также о том, какие ее подзадачи всё же поддаются автоматизации и каким образом.

Докладчик: Ярослав Недумов

Материалы

  1. Леонид Черняк. Интеграция данных: синтаксис и семантика. Открытые системы, 10, 2009.
  2. ME Califf and RJ Mooney. Relational learning of pattern-match rules for information extraction. In: Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), Menlo Park, CA, American Association for Artificial Intelligence, pages 328-334, 1999
  3. Sofiane Ouaguenouni, Kumar Sivaraman, and Terry Braun. Identity resolution and data quality algorithms for master person index. An Oracle White Paper, August 2010.
  4. Erhard Rahm and Hong Hai Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23:2000, 2000.

Презентация с семинара