Тематика научных исследований отдела включает в себя широкий круг задач от построения облачных инфраструктур до анализа текстов и социальных сетей.
- Современные программные системы, как правило, являются распределенными и работают в облаках. Развертывание программных комплексов с учетом потребностей каждой из частей в вычислительных ресурсах (процессорных ядрах, оперативной памяти, специализированных сопроцессоров и видеокарт), а также требований к каналам связи и географическому расположению серверов, все еще требует сложной ручной работы. Поэтому одно из важнейших направлений исследований – это развитие подхода IaC (Infrastructure as Code), в рамках которого ставятся задачи автоматизации развертывания за счет разработки языков программирования для описания инфраструктуры. Такой подход дает возможность абстрагироваться от особенностей конкретного облачного провайдера (Борисенко, Богомолов, Швецова, Лазарев, Бадалян, Столяров).
- Информационные системы нуждаются в данных, важным источником которых является Интернет. Поэтому на семинаре ведется разработка автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Решаются задачи оптимизации обхода веб-сайтов и автоматического выделения релевантных данных с собранных веб-страниц (Варламов, Лазарев Владимир, Яцков). Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов (Дробышевский).
- Традиционный объект интереса на семинаре – это тексты на естественном языке: новостные заметки, посты в социальных сетях, страницы Википедии, научные статьи. Для их анализа исследуются и разрабатываются алгоритмы NLP: выделения именованных сущностей, разрешения кореферентности, выделения терминов, разрешения лексической многозначности и другие. Разработанный на семинаре фреймворк для обработки текстов Texterra доступен через Интернет на сайте http://texterra.org. Также ведутся исследования в области обработки изображений и видеоданных (Майоров).
- Для решения прикладных задач на семинаре активно применяются методы машинного обучения, в том числе с использованием глубоких нейронных сетей. Ведутся и собственные исследования по этой теме – в основном, направленные на решение проблемы нехватки обучающих данных. Исследуются и разрабатываются алгоритмы активного и проактивного обучения, использования краудсорсинга, адаптации к домену и др. Другое направление – построение систем, устойчивых к изменениям в данных, которые неизменно происходят при длительном эксплуатации системы. (Архипенко, Рындин).
- Для анализа данных из социальных медиа (включая информацию о людях, сообществах, продуктах и организациях) разрабатывается фреймворк Talisman (http://talisman.ispras.ru/). С его помощью можно решать задачи выявления групп по интересам, оптимизации управления персоналом, выяснения общественного мнения, репутационного менеджмента, выявления информационных кампаний, манипулирующих мнением целевой аудитории, а также определения ключевых трендов. Фреймворк объединяет направления, описанные выше, а также позволяет решать специализированные задачи обработки данных социальных сетей (Турдаков, Рындин).
- Последние десятилетия характеризуются активным развитием вычислительной биологии и генетики. Количество новых данных растет с каждым годом в геометрической прогрессии. В биомедицине для сбора и хранения данных используются распределенные отказоустойчивые системы хранения; для извлечения нового знания и анализа данных применяются математические алгоритмы и методы машинного обучения. На данный момент, сотрудники отдела совместно с лабораторией геномной инженерии МФТИ ведут работу над задачами распознавания дифференцировки органоидов, анализа снимков сосудистого русла, определения типов клеток по экспрессии РНК, геномной селекции и обработке данных секвенирования ДНК отдельных клеток (Карпулевич).
Руководителем семинара является Турдаков Денис Юрьевич — к. ф.-м. н., заведующий отделом информационных систем ИСП РАН.
Be the first to leave a comment. Don’t be shy.
You must be logged in to post a comment.