Козлов Илья Сергеевич

Должность: стажёр-исследователь, аспирант

mail: kozlov-ilya@ispras.ru

Научные интересы:

  • Анализ документов с помощью методов машинного обучения
  • Сегментация изображений

ТЕМЫ РАБОТ ДЛЯ СТУДЕНТОВ

2020

Адаптация к домену в задаче сегментации документов

В статье [1] описана сегментация научных статей, авторами получен большой набор данных. Если мы захотим применить этот набор данных (и модель, обученную на этом наборе данных) к другом типу документов (например к техническим заданиям, договорам и т.д.), то качество работы может оказаться низким. Необходимо научиться обучать модель на имеющемся наборе данных так, чтобы качество работы на новом домене оставалось высоким.

Активное обучение в задаче сегментации документов

В статье [1] описана сегментация научных статей, авторами получен большой набор данных. Если мы захотим применить этот набор данных (и модель, обученную на этом наборе данных) к другом типу документов (например к техническим заданиям, договорам и т.д.), то качество работы может оказаться низким. Мы хотим повысить качество работы нашей модели, разметив небольшое количество данных из новой области, необходимо исследовать какие документы нам следует выбрать для разметки, дабы максимально повысить качество работы, разметив минимум документов.

Сравнение различных архитектур нейронных сетей в задаче сегментации документов.

Исследовать какая архитектура лучше подходит для сегментации документов.

Сегментация документов со сложным фоном.

Необходимо научиться производить сегментацию документов со сложным фоном  (реклама, глянцевые журналы etc).

 

Визуализация работы нейронных сетей на задаче сегментации документов.

В уже классической статье [2] описывается визуализация работы нейронной сети, обученной для классификации изображений. Интересно провести такую же работу для сегментации документов.

 

 

 

Литература
[1] Zhong X., Tang J., Yepes A. J. PubLayNet: largest dataset ever for document layout analysis //arXiv preprint arXiv:1908.07836. – 2019.

[2] Zeiler M. D., Fergus R. Visualizing and understanding convolutional networks //European conference on computer vision. – Springer, Cham, 2014. – С. 818-833.