Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts published by admin

Построение диалоговых систем (чат-ботов) является одной из самых актуальных задач natural language processing. В последние годы получено большое количество теоретических и практических результатов в данной области. К практическим результатам можно отнести создание таких систем, как Amazon Alexa, Yandex Alisa  и т.д, теоретические результаты регулярно публикуются в рамках основного и competition треков крупнейших конференций по машинному обучению (хороший обзор полученных теоретических результатов есть в https://www.kdd.org/exploration_files/19-2-Article3.pdf).
На докладе будет дан обзор современного состояния теории построения диалоговых систем, рассказаны основные подходы к построению goal-oriented и chit-chat ботов, теоретические результаты и фреймворки для построения чат-ботов. Будут представлены практические результаты, полученные в рамках участия в хакатоне deephack 2018.
Докладчик: Александр Никитин
Презентация: pdf

13 ноября (вторник) в 18:00 будет проведен семинар, посвященный реализации операций над JSON-данными через JDBC в режиме сквозного кэширования над PostgreSQL. Также будет рассказано о бенчмарке TPC-H и сравнении Apache Ignite, VoltDB и PostgreSQL.

Докладчики: Никита Лазарев и Давид Бадалян.

 

Приходите.

Семинар в это семестре проходит по вторникам. Начало в 18:00.
Расписание доступно по ссылке

Внимание! 26.09.2017 (вторник) в 19:00 состоится первый спецсеминар в 2017-2018 учебном году.

Приглашаются студенты ВМК МГУ, МФТИ и ВШЭ. На первом семинаре научные руководители расскажут о себе и темах курсовых/дипломных работ. Явка студентов обязательна!

UPDATE:

Распределение тем на спецсеминаре происходит по обобщенному алгоритму Гейла-Шепли. Механика процесса следующая:

  1. Во вторник вечером мы рассказываем о своих направлениях исследований и темах работ.
  2. После семинара и далее в течение недели, до пятницы 29 сентября включительно, можно договориться с потенциальным научным руководителем, встретиться и обсудить темы более подробно.
  3. К 6 часам утра понедельника 2 октября каждый студент должен отправить письмо со своими приоритетами на адрес yaroslav.nedumov@ispras.ru. Письмо должно содержать:
    1. Тема: “Выбор тем, ФИО, курс (3, 4, 5 или 6), ВУЗ (ВМК, МФТИ или ВШЭ)“. Например: “Выбор тем, Байес Томас Джошуевич, 5 курс, МФТИ”
    2. Эссе на 0,5 – 1 страницу (1-2 тыс. знаков) с описанием ваших интересов и мотивов выбора тем.
    3. 3-5 (лучше 5) тем работ в порядке убывания приоритета в формате: фамилия научного руководителя, название темы.

    UPDATE 2: Заполнить гуглоформу: https://goo.gl/forms/NiNHIXHuAwZ6QZdU2. (Кто уже отправил мне письмо, не переживайте, я о вас помню).

  4. В течение понедельника-вторника мы определимся со своими предпочтениями и к следующему семинару (19:00, 3 октября) здесь, на сайте семинара, будет опубликовано распределение по темам.

В последние несколько лет количество различных СУБД с разными языками запросов и моделями
данных стремительно выросло. Даже при наличие стандартов, таких как SQL, очень много функционала в стандарты не попадает (например различные библиотеки функций и расширения языка), таким образом каждая СУБД с поддержкой SQL на самом деле предлагает свой особый диалект. При этом, возможности программистов, а особенно data scientists и инженеров
осваивать и держать в рабочем состоянии умения работать с большим количеством баз принципиально не изменилось.

В проекте PythonQL мы решаем сразу несколько задач, но основная из них – дать простой удобный интерфейс программисту ко всем СУБД через встроенный язык запросов и с использованием уже знакомых программисту библиотек. Кроме этой задачи,
программист получает возможность одним запросом обращаться в несколько разных СУБД, использовать в запросе данные из файлов и структур данных из оперативной памяти программы.

В докладе будет представлен как само расширение PythonQL, так и текущая реализация и перспективы развития системы.

Начало в 18.00
Докладчик: Павел Велихов

2 мая – предзащита 4 курса бакалавриата и 2 года магистратуры ВМК МГУ
24 мая (дата перенесена) – Защита курсовых 3 курса бакалавриата и 1 года магистратуры ВМК МГУ

Для тестирования значимости или масштабируемости алгоритмов анализа сетей (например, поиска сообществ в графе) необходимо иметь датасет из разных графов разного размера. Однако, обычно в наличии есть небольшое количество реальных графов, а кроме того, их свойства могут сильно различаться в зависимости от домена: социальные графы, графы звонков, биологические и т.д. Поэтому необходимо уметь генерить случайные графы разного размера, похожие на данный и имеющие свойства, характерные для графов из этого домена.
Особенностью рассмотренной задачи также является то, что часто ребра графа ориентированны и имеют веса, а сами графы имеют сообщества. Соответственно, генерируемые графы тоже должны быть ориентированными, взвешенными и иметь сообщества с похожей структурой.
В докладе предлагается метод генерации случайных графов, основанный на эмбеддинге графа (graph embedding). Graph embedding успешно используется для автоматического извлечения графовых признаков путем представления вершин графа векторами небольшой размерности. Будет рассказано о том, как этот подход применить для генерации похожих на данный граф случайных направленных взвешенных графов с сообществами.

Докладчик: Дробышевский Михаил

Кластеризация текстовых документов, то есть разбиение множества документов на близкие по смыслу подмножества, является фундаментальной задачей обработки текстов. Ее результаты используются во многих прикладных задачах (таких как информационный поиск, исследовательский поиск, определение спама).
Данный доклад посвящен обзору и экспериментальному сравнению методов кластеризации текстовых документов в приложении к научным статьям. В ходе доклада будут рассмотрены методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).

Докладчик: Павел Пархоменко

Социальный граф содержит много информации о пользователях социальных сетей и
может быть использован для определения демографических атрибутов, определения
основного мест проживания и выявления ботов. Однако использование графа затруднено т.к. большинство алгоритмов классификации и регрессии не способны работать с графом непосредственно.
Для того, чтобы использовать стандартные методы машинного обучения можно
представить вершины графа в виде векторов небольшой размерности. О методах представления вершин графа в векторном виде будет рассказано на  семинаре.

Докладчик: Илья Козлов

Доклад посвящен определению основного места проживания пользователей социальных сетей. Будет рассказано про подходы, основанные на анализе социального графа – вероятностные модели, метод распространения меток, и подход основывающийся на graph node embeddings и алгоритмах машинного обучения.

Докладчик: Юлия Трофимович