Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.
Докладчик: Никита Астраханцев
Материалы:
- Н.А. Астраханцев. Исследование и разработка методов извлечения объектов и их атрибутов из таблиц текстовых документов. (http://modis.ispras.ru/seminar/wp-content/uploads/2011/05/Astrakhantsev_thesis.pdf)
- N. Astrakhantsev. Extracting Objects and Their Attributes from Tables in Text Documents // Proceedings of SYRCoDIS. Moscow, 2011. P. 34-37. (http://ceur-ws.org/Vol-735/paper6.pdf)
- A. C. Silva, A. Jorge, L. Torgo. Design of an end-to-end method to extract information from tables // International Journal of Document Analysis and Recognition. 2006. 8. N 2-3. P. 144-171 (http://homepages.inf.ed.ac.uk/s0568318/tablesIJDAR.pdf)