Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.

Докладчик:  Никита Астраханцев

Материалы:

Презентация с семинара (pdf)