Недумов Ярослав Ростиславович

E-mail: yaroslav.nedumov@ispras.ru
Telegram: @nedumov
Образование:

  • специалитет ВМК МГУ, кафедра СП, 2002-2007
  • аспирантура ВМК МГУ, кафедра СП, 2007-2010

Научные интересы:

  • исследовательский поиск (exploratory search);
  • автоматизация и поддержка проведения исследований.
  • Кроме того:
    • обработка слабоструктурированных данных: текстовых таблиц, таблиц БД и т.п.
    • графовые базы данных;
    • машинное обучение.

Мои научные интересы лежат на стыке двух областей: исследовательского поиска и анализа научных данных и науки в целом.
С задачей исследовательского поиска вы вероятно столкнулись прямо сейчас. Задача выбора темы курсовой работы и научного руководителя обладает всеми признаками исследовательского поиска:

  • Вы не очень понимаете, чем хотите заниматься (низкая специфичность цели)
  • Чтобы все-таки ответить на этот вопрос кажется придется потратить довольно много времени (возможно несколько часов, а возможно несколько недель), и хотя бы немного разобраться (что в некоторых случаях может приводить к преждевременному написанию курсовой) (высокая длительность поиска).
  • Вам трудно понять, глядя на тему, нашли вы уже ту единственную или еще нет (да и вообще, тема ли это) (большой объем).
  • Вероятно вы будете комбинировать разные тактики: поищите информацию в поисковике, спросите студентов старших курсов, поговорите с предполагаемым научником (обязательно сделайте это) (оппортунистический и мультитактический характер поиска).
  • А потом все это еще раз, а то и не один, чтобы уже определиться окончательно (итеративный характер поиска).

В рамках проекта SciNoon (демо с актуальными темами, пополняется) мы решаем задачу исследовательского поиска применительно к научным данным (в первую очередь научным статьям). Основной фокус на данный момент сделан на поддержку групповой работы, но мы работаем над разработкой всех трех видов инструментов исследовательского поиска: помощи при составлении запроса, помощи при обзоре результатов, помощи при длительном поиске и групповой работе.

Также для обеспечения работы системы приходится решать целый ряд вспомогательных задач: сбор и анализ PDF файлов, очистка и дедупликация собранных данных, построение графа цитирования и производных от него, эффективное хранение и индексация полученного графа, глубокий анализ текстов статей. Все это интересные самостоятельные задачи.

Перспективные направления работы включают в себя разработку интеллектуального помощника при чтении и/или при написании статей, который мог бы порекомендовать какую статью стоит процитировать в том или ином случае, подсказать значение термина. Также мы планируем исследовать новый для нас домен юридических данных.

Поучаствовав в нашем проекте вы сможете попробовать себя в современном программировании на Scala (Play, Akka) и Typescript (React, Redux, D3js), узнать как устроены современные Web-приложения и научиться ставить эксперименты и ясно выражать свои мысли.

Темы для курсовых/выпускных работ 2019/2020

Выделение структуры из полуформальных текстов

Тема посвящена обработке полуструктурированных данных. Это такая область между формальными грамматиками и парсерами с одной стороны и обработкой естественного языка с другой. Конкретные прикладные задачи, которые меня интересуют: извлечение всякого полезного (заголовка, авторов, библиографии и т.д.) из PDF/HTML с научными статьями и извлечение глав, статей, пунктов, ссылок из текстов законов и других нормативно-правовых актов. Да, еще из текстов патентов можно много всего повыделять.

Дедупликация статей

При сборе данных информация об одной и той же статье может приходить независимо из разных источников. Наиболее часто это происходит при разборе библиографических ссылок. При этом практически никогда не указывается никакого уникального идентификатора статьи (такого, например, как doi). В результате приходится находить статьи-дубликаты по косвенным признакам.

Статьи для затравки:

  1. Köpcke, Hanna, and Erhard Rahm. «Frameworks for entity matching: A comparison.» Data & Knowledge Engineering 69.2 (2010): 197-210.
  2. Christen, Peter. «Febrl-: an open source data cleaning, deduplication and record linkage system with a graphical user interface.» Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008.

Поиск по статьям с использованием JanusGraph и ElasticSearch/Solr

Базовая версия работы предполагает индексацию заголовков, аннотаций и полных текстов статей (если доступны) и обеспечение полнотекстового поиска.

Более интересная версия должна использовать векторные представления слов.

Статьи для затравки (строго говоря не совсем по теме):

  1. Lin, Wei, et al. «PacificA: Replication in log-based distributed storage systems.» (2008).
  2. Le, Quoc, and Tomas Mikolov. «Distributed representations of sentences and documents.» Proceedings of the 31st International Conference on Machine Learning (ICML-14). 2014.
  3. Mikolov, Tomas, et al. «Distributed representations of words and phrases and their compositionality.» Advances in neural information processing systems. 2013.

Если эти темы звучат скучнова-то, то еще не поздно со мной связаться, возможно я изобрету тему специально под вас.