Направления исследований

 

Тематика научных исследований отдела включает в себя широкий круг задач от построения облачных инфраструктур до анализа текстов и социальных сетей.

  1. Современные программные системы, как правило, являются распределенными и работают в облаках. Развертывание программных комплексов с учетом потребностей каждой из частей в вычислительных ресурсах (процессорных ядрах, оперативной памяти, специализированных сопроцессоров и видеокарт), а также требований к каналам связи и географическому расположению серверов, все еще требует сложной ручной работы. Поэтому одно из важнейших направлений исследований – это развитие подхода IaC (Infrastructure as Code), в рамках которого ставятся задачи автоматизации развертывания за счет разработки языков программирования для описания инфраструктуры. Такой подход дает возможность абстрагироваться от особенностей конкретного облачного провайдера (Борисенко, Богомолов, Швецова, Аксенова, Лазарев).
  2. Информационные системы нуждаются в данных, важным источником которых является Интернет. Поэтому на семинаре ведется разработка автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Решаются задачи оптимизации обхода веб-сайтов и автоматического выделения релевантных данных с собранных веб-страниц (Варламов, Яцков).  Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов (Дробышевский).
  3. Обработка полуструктурированных данных. Огромное количество информации хранится в виде полуструктурированных документов (тексты законов, технические задания, инструкции и многое другое). Такие документы могут содержать таблицы, явные и неявные разбиения на пункты и подпункты, определения и другую информацию. Для эффективного применения методов анализа текстов на естественном языке может быть полезно выявление структуры в таких документах и представление их в структурированном виде.  (Козлов)
  4. Собранные из разных источников данные необходимо очищать и интегрировать между собой, а затем сохранять для последующего анализа. В рамках решения этих задач на семинаре исследуются и разрабатываются алгоритмы поиска и устранения дубликатов и системы управления графовыми базами данных (Недумов).
  5. Традиционный объект интереса на семинаре – это тексты на естественном языке: новостные заметки, посты в социальных сетях, страницы Википедии, научные статьи. Для их анализа исследуются и разрабатываются алгоритмы NLP: выделения именованных сущностей, разрешения кореферентности, выделения терминов, разрешения лексической многозначности и другие. Разработанный на семинаре фреймворк для обработки текстов Texterra доступен через Интернет на сайте http://texterra.org. Также ведутся исследования в области обработки изображений и видеоданных (Майоров).
  6. Для решения прикладных задач на семинаре активно применяются методы машинного обучения, в том числе с использованием глубоких нейронных сетей. Ведутся и собственные исследования по этой теме – в основном, направленные на решение проблемы нехватки обучающих данных. Исследуются и разрабатываются алгоритмы активного и проактивного обучения, использования краудсорсинга, адаптации к домену и др.  Другое направление – построение систем, устойчивых к изменениям в данных, которые неизменно происходят при длительном эксплуатации системы. (Архипенко, Козлов, Рындин, Скорняков).
  7. Важный вид информационных систем – это поисковые системы. В целом задача информационного поиска успешно решается обычными современными системами. Однако в случае исследовательского поиска, когда пользователь точно не знает, что он ожидает найти, необходимы специализированные инструменты. Это связано с тем, что такой поиск требует большего количества времени для анализа каждого элемента поисковой выдачи. В особенности такая задача актуальна для поиска научных данных – в частности, из-за сложности текстов научных статей, не всегда согласованной терминологии и узкой специализации ученых. Для облегчения проведения совместного исследования новых предметных областей на семинаре разрабатывается система SciNoon (https://scinoon.com) (Недумов).
  8. Наконец, для анализа данных из социальных медиа (включая информацию о людях, сообществах, продуктах и организациях) разрабатывается фреймворк Talisman (http://talisman.ispras.ru/). С его помощью можно решать задачи выявления групп по интересам, оптимизации управления персоналом, выяснения общественного мнения, репутационного менеджмента, выявления информационных кампаний, манипулирующих мнением целевой аудитории, а также определения ключевых трендов. Фреймворк объединяет направления, описанные выше, а также позволяет решать специализированные задачи обработки данных социальных сетей (Турдаков, ГомзинРындин).
  9. Последние десятилетия характеризуются активным развитием вычислительной биологии и генетики. Количество новых данных растет с каждым годом в геометрической прогрессии. В биомедицине для сбора и хранения данных используются распределенные отказоустойчивые системы хранения; для извлечения нового знания и анализа данных применяются математические алгоритмы и методы машинного обучения. На данный момент, сотрудники отдела совместно с лабораторией геномной инженерии МФТИ ведут работу над задачами распознавания дифференцировки органоидов, анализа снимков сосудистого русла, определения типов клеток по экспрессии РНК, геномной селекции и обработке данных секвенирования ДНК отдельных клеток (Карпулевич).

Руководителем семинара является Турдаков Денис Юрьевич — к. ф.-м. н., заведующий отделом информационных систем ИСП РАН.

Be the first to leave a comment. Don’t be shy.

You must be logged in to post a comment.