Беляева Оксана Владимировна

Контакты: belyaeva@ispras.ru

Образование: МГТУ им. Н.Э. Баумана, кафедра «Программное обеспечение ЭВМ и информационные технологии»

— бакалавриат (2016), магистратура (2018), аспирантура ИСП РАН (на данный момент);

Должность в ИСП РАН: стажер-исследователь

Научные интересы:

  • Искуственный интеллект — сети области Computer Vision
  • Интеллектуальная обработка изображений документов — Document Image Understanding, Document Image Analysis, Table Understanding;
  • Сегментация изображений — Document Image Analysis, Object Detection;
  • Машинное обучение;
  • Создание синтетических наборов данных.

Набора НЕТ!:

НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ

Направление исследований за предыдущие года (текущие направления):

  • Основное из направлений исследований является Автоматическая обработка электронных документов различных форматов (PDF, сканированных документов, DOCX, HTML, TXT и т.д.)  с целью извлечения их содержимого и логической структуры в едином унифицированном формате «Dedoc«[1]. Большинство электронных документов не обладают внутренней структурой (является неструктурированными или слабо-струкутрированными), такими документами являются PDF, сканированные документы (представленные изображениями). По этой причине последующий интеллектуальный анализ содержимого данных документов практически невозможен без предварительной обработки, извлечения содержимого и восстановления логической структуры данных документов. Благодаря этому появляется возможность автоматически обрабатывать электронные документы различных форматов привлечения без помощи человека:
    — полно-структурированных (с использованием существующих библиотек, например для анализа распространенных типов HTML, так и написания собственных для анализа DOCX, PDF с текстовым слоем)
    — слабо-структурированных, таких как PDF без текстового слоя, изображения сканированных документов. Данное направление актуально и активно развиваются в  ИСП РАН, результаты разработки используются в разрабатываемых в ИСП РАН продуктах платформе сбора и поиска информации «Talisman» и системе анализа исчезающих языков «Lingvodoc«. Разработанный алгоритм по извлечение логической структуры выигрывал международное соревнование «FinTOC 2022«.
  • Направление извлечения информации из изображений юридических и финансовых документов. Заключается в предварительной обработке изображений документов: очистка фона, выравнивание, локализация документов, локализация и распознавание текстов на документе.
  • Дополнительные направления по распознаванию и отождествлению лиц в применения к разным задачам.
  • Исследование интепретируемости нейросетевого метода для решения задачи исправления ориентации изображения сканированного документа.

Возможные будущие направления исследований:

  • Извлечение ключевых полей из изображений документов с использованием методов подготовки тренировочных данных с помощью «soft labeling» и генерации данных;
  • Генерация синтетических данных с разметкой для задач извлечения ключевых полей;
  • Исследование методов интерпретируемости.

Ссылки на открытое ПО:

Dedoc: система извлечения содержимого и структуры текстовых документов

Публикации:

  1. Описание технологии  «Dedoc: система извлечения содержимого и структуры текстовых документов»
    https://www.ispras.ru/technologies/dedoc/
  2. ISPRAS@FinTOC-2021 Shared Task: Two-stage TOC generation model(https://aclanthology.org/2021.fnp-1.15) (Kozlov et al., FNP 2021) (https://aclanthology.org/2021.fnp-1.15/)
  3. Bogatenkova A. et al. ISPRAS@ FinTOC-2022 Shared Task: Two-stage TOC Generation Model //Proceedings of the 4th Financial Narrative Processing Workshop@ LREC2022. – 2022. – С. 89-94.
  4. BELYAEVA O.V., PERMINOV A.I., KOZLOV I.S. Synthetic data usage for document segmentation models fine-tuning. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2020;32(4):189-202. (In Russ.) https://doi.org/10.15514/ISPRAS-2020-32(4)-14

  5. A. O. Bogatenkova, I. S. Kozlov, O. V. Belyaeva, A. I. Perminov, “Logical structure extraction from scanned documents”, Proceedings of ISP RAS, 32:4 (2020), 175–188 (Презентация)
  6. Akopyan M. S. et al. Text recognition on images from social media //2019 Ivannikov Memorial Workshop (IVMEM). – IEEE, 2019. – С. 3-6. (Презентация)
  7. PERMINOV A.I., TURDAKOV D.Yu., BELYAEVA O.V. Loss functions for train document image segmentation models. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(2):89-110. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(2)-8