Управление данными и информационные системы

Научный семинар Института системного программирования РАН

В одкладе рассматриваются результаты работы Леви и Голдберга, опубликованные в статье O. Levy, Y. Goldberg. Linguistic Regularities in Sparse and Explicit Word Representations, получившей приз за лучшую статью на конференции CoNLL, 2014.

В ходе доклада будут рассмотрены две модели представления слов на естественном языке в виде вещественнозначных векторов: на основе нейронных сетей (word2vec), а также явные представления, где используются частоты появлений слов в контексте других слов. Будут продемонстрированы лингвистические регулярности, которыми обладают результирующие представления, в частности, свойство аддитивности векторов. Будет проведено экспериментальное сравнение нейросетевых и явных моделей в задачах аналогии слов и показано, что нейронные сети являются не единственными моделями, успешно справляющимися с этими задачами. В заключение будут рассмотрены результаты и некоторые ошибки в решениях аналогий разных типов при помощи обеих моделей.

Докладчик: Константин Архипенко.

Презентация: pdf

Видео: https://www.youtube.com/watch?v=Xp6La4pygcs

1. Начинающему разработчику PostgreSQL

  • как устроено сообщество PostgreSQL
  • жизненный цикл разработки новых версий PostgreSQL
  • как написать патч (от Proposal до Commit’a)
  • как ориентироваться в коде

2. Особенности архитектуры PostgreSQL

  • Общая архитектура взаимодействия подсистем
  • Использование глобальных объектов
  • Устройство снимков и реализация MVCC
  • Журналирование
  • Организация репликации, протокол передачи данных между узлами

3. Обзор задач для новичков

Докладчики: Александр Коротков и Анастасия Лубенникова (Postgres Professional)

Начало в 17.00 (среда 23 сентября)

Презентации:

Видео: https://www.youtube.com/watch?v=1n6y-Gdd6PQ

В ходе доклада будут рассмотрены основные подсистемы в СУБД Sedna и механизмы взаимодействия между этими подсистемами. Также будет рассказана эволюция архитектуры и причины, которые подталкивают изменять методы взаимодействия между подсистемами такого рода проектов.

Докладчик: Олег Борисенко

Видео: https://www.youtube.com/watch?v=D23Vw6iRrZQ

Начало в 19.00

TopRater строит систему много-критериального обмена опытом в разных сферах e-commerce. В перспективе мы хотим создать систему обмена оценками и опытом с максимальным уровнем доверия в интернете. Как первый шаг наполнения системы контентом мы разобрали сотни миллионов отзывов в интернете с помощью аспектно-ориентированного анализа сентимента и других методов анализа текстов. В этом докладе будут представлены две технологии компании: аспектно-ориентированный анализ текстов отзывов и собственная система workflow для создания поисковой системы с глубокой версионностью и валидацией данных.

Докладчик: Павел Велихов

Начало в 18.00

Предзащита дипломов 4 и 5 курсов состоится 5 мая в 17.00.

В соответствии с требованиями факультета до 6 мая на кафедру должна быть предоставлена информация о прохождении предзащиты. Студенты не прошедшие предзащиту к защите диплома не допускаются.

Напоминаю, на предзащите студенты должны предоставить печатную версию дипломной работы, подписанную научным руководителем. Неподписанные работы рассматриваться не будут.

Доклад посвящен проекту OpenStack, предназначенному для создания инфраструктурных облачных сервисов и облачных хранилищ. В докладе будут рассмотрены следующие аспекты проекта:

  • Разбор того как устроено сообщество OpenStack
  • OpenStack маркетинг или почему он так популярен
  • Разбор архитектурных ошибок
  • Разбор организационных ошибок
  • Почему из OpenStack-а невозможно сделать продукт

Докладчик: Борис Павлович

Видео: https://www.youtube.com/watch?v=EQETZ9Margc

Онлайновые социальные сети, помимо коммуникационной функции, играют роль хранилищ персональной информации о каждом из пользователей. Сервисы персональной аналитики (Yasiv, TouchGraph, Wolfram|Alpha Personal Analytics и другие) позволяют каждому пользователю анализировать и визуализировать информацию своего аккаунта, а также данные своих соседей в социальном графе. Особый интерес представляет построение и исследование т.н. “эго-сети”, состоящей из пользователя и всех его соседей, соединённых социальными связями.

Доклад посвящён разработанному в ИСП РАН сервису персональной аналитики EgoZoom, который позволяет пользователям Twitter в интерактивном режиме загружать и исследовать свою эго-сеть. Сервис позволяет искать социальные круги (сообщества) среди контактов пользователя, а также определять демографические атрибуты (пол, возраст, уровень образования и другие) по текстам твитов. Полученная эго-сеть с атрибутами и сообществами пользователей визуализируется в браузере с возможностью исследования как отдельных пользователей, так и подмножеств пользователей, объединённых общим набором атрибутов и/или участием в одних и тех же сообществах. Сервис позволяет исследовать социальные связи, сообщества, атрибуты и контент выбранных пользователей. Помимо владельцев аккаунтов, результаты работы сервиса могут представлять интерес для социологов и маркетологов, позволяя получить приближённое представление о кластерной структуре и распределениях значений атрибутов в эго-сети некоторого пользователя Twitter.

Демо-версия сервиса доступна по адресу: http://egozoom.at.ispras.ru/

Видеозапись семинара: http://www.youtube.com/watch?v=j-Yo4Vrh9TA

Докладчик: Антон Коршунов

Одним из направлений исследований в отделе Информационных систем ИСП РАН является анализ социальных сетей. Решаются такие задачи, как поиск сообществ, извлечение демографических атрибутов пользователей, объединение аккаунтов пользователей различных социальных сетей, оценка влиятельности пользователей и другие.

Доклад посвящен разрабатываемому в отделе фреймворку для обработки социальных данных MOSON, который позволяет реализовать решения упомянутых выше задач в рамках одной системы.
На данный момент реализована модель данных, средства для загрузки данных из MongoDB, алгоритмы поиска сообществ и определения демографических атрибутов пользователей.

В рамках доклада будет рассказано о предлагаемой модели данных социального графа. Кроме того, будет показано, как использовать фреймворк совместно с другими разработками.

Докладчик: Андрей Гомзин

Известно, что один и тот же пользователь может иметь несколько аккаунтов в различных социальных сервисах. Задача объединения таких аккаунтов в единую запись о пользователе актуальна для мобильных устройств и персонализированных сервисов, зависящих от точности пользовательской модели.
В докладе будет рассмотрен метод решения этой задачи для случая двух эго-сетей одного пользователя в различных сервисах [1]. Также будет рассмотрена реализация решения на языке Java с использованием программного фреймворка MOSON, разрабатываемого в ИСП РАН.
Литература:

  • Bartunov S. et al. Joint link-attribute user identity resolution in online social networks //Proceedings of the 6th International Conference on Knowledge Discovery and Data Mining, Workshop on Social Network Mining and Analysis. ACM. – 2012.
  • Ravikumar P., Lafferty J. Quadratic programming relaxations for metric labeling and markov random field map estimation //Proceedings of the 23rd international conference on Machine learning. – ACM, 2006. – С. 737-744
  • Lafferty J., McCallum A., Pereira F. C. N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. – 2001.

Докладчик: Ярослав Бондарчук

Видео: https://youtu.be/ZG3IHJdRbuw

Этот доклад будет посвящен недавнему проекту с крупным заказчиком. В докладе будет описано, с какими трудностями столкнулась команда, и будет приведен список подводных камней, которые встретились в ходе проекта. Будут затронуты вопросы построения тестовой системы для тестирования, описаны основные возможности тестируемых решений и краткие результаты, полученные в ходе тестирования.

Докладчик: Олег Борисенко

Видео: http://www.youtube.com/watch?v=gnaOvIiaxQI