Управление данными и информационные системы

Тематика научных исследований отдела включает в себя широкий круг задач от построения облачных инфраструктур до анализа текстов и социальных сетей.

Современные программные системы, как правило, являются распределенными и работают в облаках. Развертывание программных комплексов с учетом потребностей каждой из частей в вычислительных ресурсах (процессорных ядрах, оперативной памяти, специализированных сопроцессоров и видеокарт), а также требований к каналам связи и географическому расположению серверов, все еще требует сложной ручной работы. Поэтому одно из важнейших направлений исследований – это развитие подхода IaC (Infrastructure as Code), в рамках которого ставятся задачи автоматизации развертывания за счет разработки языков программирования для описания инфраструктуры. Такой подход дает возможность абстрагироваться от особенностей конкретного облачного провайдера (Борисенко, Богомолов, Швецова, Лазарев, Бадалян, Столяров).
Информационные системы нуждаются в данных, важным источником которых является Интернет. Поэтому на семинаре ведется разработка автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Решаются задачи оптимизации обхода веб-сайтов и автоматического выделения релевантных данных с собранных веб-страниц (Варламов, Лазарев Владимир, Яцков). Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов (Дробышевский).
Традиционный объект интереса на семинаре – это тексты на естественном языке: новостные заметки, посты в социальных сетях, страницы Википедии, научные статьи. Для их анализа исследуются и разрабатываются алгоритмы NLP: выделения именованных сущностей, разрешения кореферентности, выделения терминов, разрешения лексической многозначности и другие. Разработанный на семинаре фреймворк для обработки текстов Texterra доступен через Интернет на сайте http://texterra.org. Также ведутся исследования в области обработки изображений и видеоданных (Майоров).
Для решения прикладных задач на семинаре активно применяются методы машинного обучения, в том числе с использованием глубоких нейронных сетей. Ведутся и собственные исследования по этой теме – в основном, направленные на решение проблемы нехватки обучающих данных. Исследуются и разрабатываются алгоритмы активного и проактивного обучения, использования краудсорсинга, адаптации к домену и др. Другое направление – построение систем, устойчивых к изменениям в данных, которые неизменно происходят при длительном эксплуатации системы. (Архипенко, Рындин).
Для анализа данных из социальных медиа (включая информацию о людях, сообществах, продуктах и организациях) разрабатывается фреймворк Talisman (http://talisman.ispras.ru/). С его помощью можно решать задачи выявления групп по интересам, оптимизации управления персоналом, выяснения общественного мнения, репутационного менеджмента, выявления информационных кампаний, манипулирующих мнением целевой аудитории, а также определения ключевых трендов. Фреймворк объединяет направления, описанные выше, а также позволяет решать специализированные задачи обработки данных социальных сетей (Турдаков, Рындин).
Последние десятилетия характеризуются активным развитием вычислительной биологии и генетики. Количество новых данных растет с каждым годом в геометрической прогрессии. В биомедицине для сбора и хранения данных используются распределенные отказоустойчивые системы хранения; для извлечения нового знания и анализа данных применяются математические алгоритмы и методы машинного обучения. На данный момент, сотрудники отдела совместно с лабораторией геномной инженерии МФТИ ведут работу над задачами распознавания дифференцировки органоидов, анализа снимков сосудистого русла, определения типов клеток по экспрессии РНК, геномной селекции и обработке данных секвенирования ДНК отдельных клеток (Карпулевич).

Руководителем семинара является Турдаков Денис Юрьевич — к. ф.-м. н., заведующий отделом информационных систем ИСП РАН.

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Направления исследований