Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Внимание! 24.09.2018 (понедельник) в 18:00 состоится презентация тем курсовых и дипломных работ. Предварительный список тем можно найти уже сейчас на страницах научных руководителей.

Приглашаются студенты ВМК МГУ, МФТИ и ВШЭ.

Распределение тем на спецсеминаре происходит по обобщенному алгоритму Гейла-Шепли. Механика процесса следующая:

  1. В понедельник вечером мы рассказываем о своих направлениях исследований и темах работ.
  2. После семинара и далее в течение недели, до пятницы 28 сентября включительно, можно договориться с потенциальным научным руководителем, встретиться и обсудить темы более подробно.
  3. К 6 часам утра понедельника 1 октября каждый студент, у которого еще нет твердой договоренности с научным руководителем, должен заполнить гуглоформу с его предпочтениями по темам (ссылка появится здесь после презентации тем).
  4. В течение понедельника-вторника мы определимся со своими предпочтениями и к следующему семинару (19:00, 2 октября) здесь, на сайте семинара, будет опубликовано распределение по темам.

Современные поисковые системы хорошо подходят для поиска единичных фактов, конкретных документов, ответов на вопросы. Однако не всегда поисковые потребности пользователей так конкретны. Пользователь может точно не знать, что именно он хочет найти, может не понимать, пора ли закончить поиск или следует продолжать, анализ результатов поиска может требовать значительного времени. В таких случаях говорят о задаче исследовательского поиска (exploratory search). Эффективное решение задачи исследовательского поиска требует применения специфических инструментов, зачастую зависящих от домена. Интуитивно понятно, что поиск научных данных во многих случаях является исследовательским. Поиск в этом домене с одной стороны сталкивается с вызовами: сложность языка текстов, специфическая терминология, а с другой стороны, кроме текстов статей можно использовать метаданные (время и место публикации, авторов) и граф цитирования.

В докладе будут рассмотрены варианты постановки задачи исследовательского поиска, рассмотрены поисковые потребности ученых и формализована их связь с задачей исследовательского поиска. Будут рассмотрены инструменты исследовательского поиска и их реализации в современных системах поиска публикаций.

Доклад состоится 17.04.2018 в 18:00 в 110 комнате ИСП РАН.

Докладчик: Ярослав Недумов

Семинар в это семестре проходит по вторникам. Начало в 18:00.
Расписание доступно по ссылке

По итогам обработки поступивших анкет получилось следующее распределение тем по студентам:

ФИО ВУЗ Курс Научрук Предварительная формулировка темы
Аксенов Михаил Владимирович ВМК 4 Андрианов Исправление ошибок в русскоязычных текстах с помощью нейронных сетей
Аксенова Елена ВМК 4 Богомолов/Борисенко Распределенный сервис идентификации для облачной платформы
Алексеев Евгений Сергеевич ВШЭ 5 Борисенко Улучшение Ignite
Архипенко Константин Владимирович ВМК 6 Турдаков/Архипенко Методы определения сленга в социальных сетях и их приложения к задачам NERC и извлечения объектов баз знаний
Бабичев Антон ВМК 6 Недумов Object-Graph-Mapping для TinkerPop
Баранов Антон Сергеевич ВШЭ 4 Варламов Сбор данных из форумов
Бондаренко Владислав Александрович МФТИ 4 Акопян Поиск людей в потоке изображений
Борисов Павел ВШЭ 5 Борисенко Облачная среда на базе Xen/XAPI
Варламова Арина Олеговна ВМК 5 (1 год магистратуры) Трофимович Выделение этнофолизмов
Васьков Александр Олегович ВМК 3 Майоров SemEval-2018 Task 11: Machine Comprehension using Commonsense Knowledge
Егоров Николай Сергеевич ВШЭ 4 Андрианов Диалоговые системы
Еремин Дмитрий Александрович ВШЭ 5 Тапехин/Борисенко Хранение данных OpenEHR
Ермакова Елена Сергеевна МФТИ 4 Гомзин Определение демографических атрибутов пользователей сети Интернет по текстам их сообщений
Ефремова Мария Александровна МФТИ 4 Дробышевский
Использование распределения подграфов в графе для определения демографических атрибутов пользователей сети Интернет
Иконникова Мария Кирилловна ВМК 5 (1 год магистратуры) Гомзин Определение демографических атрибутов пользователей сети Интернет по текстам их сообщений
Манджиев Айта Викторович ВМК 4 Недумов Загрузка больших графов в JanusGraph
Миронов Артём Владимирович ВМК 3 Майоров SemEval-2018 Task 11: Machine Comprehension using Commonsense Knowledge
Портной Александр Михайлович ВМК 4 Дробышевский Метод вычисления распределения подграфов в графе
Раснюк Александр Геннадьевич ВМК 3 Майоров Совместная модель для морфологического и синтаксического разбора русского языка
Рахимов Руслан Ильдарович МФТИ 4 Трофимович Выделение и классификация этнофолизмов
Сёмина Наталья МФТИ 5 Недумов Определение вклада статьи на основе обобщения контекстов, в которых она была процитирована
Строев Вячеслав Игоревич ВМК 4 Андрианов Диалоговые системы
Тапехин Андрей ВМК 6 Борисенко Отказоустойчивая система для обработки банковских данных
Трифонов Владислав Дмитриевич ВМК 3 Андрианов Викификация в русскоязычных текстах с помощью нейронных сетей
Яцков Александр Константинович ВМК 6 Варламов Сбор и агрегация новостных статей из Интернет-СМИ

Дерюгин Максим Александрович, Кравченко Егор Викторович, Самченко Дмитрий Андреевич, к сожалению, выбранные вами темы достались другим студентам. Мы с вами свяжемся в течение недели, когда поймем, кто из научных руководителей сможет вас взять. Можно проявить инициативу, и попробовать самостоятельно договориться на любую еще не занятую тему.

Остальные: свяжитесь со своими научными руководителями и узнайте план дальнейших действий.

Внимание! 26.09.2017 (вторник) в 19:00 состоится первый спецсеминар в 2017-2018 учебном году.

Приглашаются студенты ВМК МГУ, МФТИ и ВШЭ. На первом семинаре научные руководители расскажут о себе и темах курсовых/дипломных работ. Явка студентов обязательна!

UPDATE:

Распределение тем на спецсеминаре происходит по обобщенному алгоритму Гейла-Шепли. Механика процесса следующая:

  1. Во вторник вечером мы рассказываем о своих направлениях исследований и темах работ.
  2. После семинара и далее в течение недели, до пятницы 29 сентября включительно, можно договориться с потенциальным научным руководителем, встретиться и обсудить темы более подробно.
  3. К 6 часам утра понедельника 2 октября каждый студент должен отправить письмо со своими приоритетами на адрес yaroslav.nedumov@ispras.ru. Письмо должно содержать:
    1. Тема: “Выбор тем, ФИО, курс (3, 4, 5 или 6), ВУЗ (ВМК, МФТИ или ВШЭ)“. Например: “Выбор тем, Байес Томас Джошуевич, 5 курс, МФТИ”
    2. Эссе на 0,5 – 1 страницу (1-2 тыс. знаков) с описанием ваших интересов и мотивов выбора тем.
    3. 3-5 (лучше 5) тем работ в порядке убывания приоритета в формате: фамилия научного руководителя, название темы.

    UPDATE 2: Заполнить гуглоформу: https://goo.gl/forms/NiNHIXHuAwZ6QZdU2. (Кто уже отправил мне письмо, не переживайте, я о вас помню).

  4. В течение понедельника-вторника мы определимся со своими предпочтениями и к следующему семинару (19:00, 3 октября) здесь, на сайте семинара, будет опубликовано распределение по темам.

В последние несколько лет количество различных СУБД с разными языками запросов и моделями
данных стремительно выросло. Даже при наличие стандартов, таких как SQL, очень много функционала в стандарты не попадает (например различные библиотеки функций и расширения языка), таким образом каждая СУБД с поддержкой SQL на самом деле предлагает свой особый диалект. При этом, возможности программистов, а особенно data scientists и инженеров
осваивать и держать в рабочем состоянии умения работать с большим количеством баз принципиально не изменилось.

В проекте PythonQL мы решаем сразу несколько задач, но основная из них – дать простой удобный интерфейс программисту ко всем СУБД через встроенный язык запросов и с использованием уже знакомых программисту библиотек. Кроме этой задачи,
программист получает возможность одним запросом обращаться в несколько разных СУБД, использовать в запросе данные из файлов и структур данных из оперативной памяти программы.

В докладе будет представлен как само расширение PythonQL, так и текущая реализация и перспективы развития системы.

Начало в 18.00
Докладчик: Павел Велихов

2 мая – предзащита 4 курса бакалавриата и 2 года магистратуры ВМК МГУ
24 мая (дата перенесена) – Защита курсовых 3 курса бакалавриата и 1 года магистратуры ВМК МГУ

Для тестирования значимости или масштабируемости алгоритмов анализа сетей (например, поиска сообществ в графе) необходимо иметь датасет из разных графов разного размера. Однако, обычно в наличии есть небольшое количество реальных графов, а кроме того, их свойства могут сильно различаться в зависимости от домена: социальные графы, графы звонков, биологические и т.д. Поэтому необходимо уметь генерить случайные графы разного размера, похожие на данный и имеющие свойства, характерные для графов из этого домена.
Особенностью рассмотренной задачи также является то, что часто ребра графа ориентированны и имеют веса, а сами графы имеют сообщества. Соответственно, генерируемые графы тоже должны быть ориентированными, взвешенными и иметь сообщества с похожей структурой.
В докладе предлагается метод генерации случайных графов, основанный на эмбеддинге графа (graph embedding). Graph embedding успешно используется для автоматического извлечения графовых признаков путем представления вершин графа векторами небольшой размерности. Будет рассказано о том, как этот подход применить для генерации похожих на данный граф случайных направленных взвешенных графов с сообществами.

Докладчик: Дробышевский Михаил

Кластеризация текстовых документов, то есть разбиение множества документов на близкие по смыслу подмножества, является фундаментальной задачей обработки текстов. Ее результаты используются во многих прикладных задачах (таких как информационный поиск, исследовательский поиск, определение спама).
Данный доклад посвящен обзору и экспериментальному сравнению методов кластеризации текстовых документов в приложении к научным статьям. В ходе доклада будут рассмотрены методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).

Докладчик: Павел Пархоменко

Социальный граф содержит много информации о пользователях социальных сетей и
может быть использован для определения демографических атрибутов, определения
основного мест проживания и выявления ботов. Однако использование графа затруднено т.к. большинство алгоритмов классификации и регрессии не способны работать с графом непосредственно.
Для того, чтобы использовать стандартные методы машинного обучения можно
представить вершины графа в виде векторов небольшой размерности. О методах представления вершин графа в векторном виде будет рассказано на  семинаре.

Докладчик: Илья Козлов