Доклад посвящен результатам совместного проекта с фирмой 1С о решении задачи нормализации информации.
Нормализация информации — сложная дорогостоящая задача, решаемая с помощью привлечения большого количества экспертов. Автоматизация их работы может позволить существенно снизить издержки. Основная возникающая при этом проблема — отсутствие формальных описаний знаний экспертов, а также формальной постановки решаемой ими задачи. Существующие средства позволяют упростить для экспертов рутинные подзадачи, которые хорошо формализуются (например поиск, в том числе нечеткий) однако более сложные операции, составляющие основную сложность работы эксперта, не автоматизированы никак.
В докладе будет подробно рассказано о задаче нормализации, а также о том, какие ее подзадачи всё же поддаются автоматизации и каким образом.
Докладчик: Ярослав Недумов
Материалы
- Леонид Черняк. Интеграция данных: синтаксис и семантика. Открытые системы, 10, 2009.
- ME Califf and RJ Mooney. Relational learning of pattern-match rules for information extraction. In: Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), Menlo Park, CA, American Association for Artificial Intelligence, pages 328-334, 1999
- Sofiane Ouaguenouni, Kumar Sivaraman, and Terry Braun. Identity resolution and data quality algorithms for master person index. An Oracle White Paper, August 2010.
- Erhard Rahm and Hong Hai Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23:2000, 2000.