Лингвистические регулярности в явных и нейросетевых моделях векторного представления слов (29.09.15)

В одкладе рассматриваются результаты работы Леви и Голдберга, опубликованные в статье O. Levy, Y. Goldberg. Linguistic Regularities in Sparse and Explicit Word Representations, получившей приз за лучшую статью на конференции CoNLL, 2014.

В ходе доклада будут рассмотрены две модели представления слов на естественном языке в виде вещественнозначных векторов: на основе нейронных сетей (word2vec), а также явные представления, где используются частоты появлений слов в контексте других слов. Будут продемонстрированы лингвистические регулярности, которыми обладают результирующие представления, в частности, свойство аддитивности векторов. Будет проведено экспериментальное сравнение нейросетевых и явных моделей в задачах аналогии слов и показано, что нейронные сети являются не единственными моделями, успешно справляющимися с этими задачами. В заключение будут рассмотрены результаты и некоторые ошибки в решениях аналогий разных типов при помощи обеих моделей.

Докладчик: Константин Архипенко.

Презентация: pdf

Видео: https://www.youtube.com/watch?v=Xp6La4pygcs

Введение в разработку PostgreSQL (23.09.15)

1. Начинающему разработчику PostgreSQL

как устроено сообщество PostgreSQL
жизненный цикл разработки новых версий PostgreSQL
как написать патч (от Proposal до Commit’a)
как ориентироваться в коде

2. Особенности архитектуры PostgreSQL

Общая архитектура взаимодействия подсистем
Использование глобальных объектов
Устройство снимков и реализация MVCC
Журналирование
Организация репликации, протокол передачи данных между узлами

3. Обзор задач для новичков

Докладчики: Александр Коротков и Анастасия Лубенникова (Postgres Professional)

Начало в 17.00 (среда 23 сентября)

Презентации:

Видео: https://www.youtube.com/watch?v=1n6y-Gdd6PQ

Базовые компоненты и архитектура построения СУБД на примере XML СУБД Sedna версий 3.5 и 4.0 (22.09.15)

В ходе доклада будут рассмотрены основные подсистемы в СУБД Sedna и механизмы взаимодействия между этими подсистемами. Также будет рассказана эволюция архитектуры и причины, которые подталкивают изменять методы взаимодействия между подсистемами такого рода проектов.

Докладчик: Олег Борисенко

Видео: https://www.youtube.com/watch?v=D23Vw6iRrZQ

Начало в 19.00

Технологии анализа текстов и управления данными старт-апа TopRater (07.07.15)

TopRater строит систему много-критериального обмена опытом в разных сферах e-commerce. В перспективе мы хотим создать систему обмена оценками и опытом с максимальным уровнем доверия в интернете. Как первый шаг наполнения системы контентом мы разобрали сотни миллионов отзывов в интернете с помощью аспектно-ориентированного анализа сентимента и других методов анализа текстов. В этом докладе будут представлены две технологии компании: аспектно-ориентированный анализ текстов отзывов и собственная система workflow для создания поисковой системы с глубокой версионностью и валидацией данных.

Докладчик: Павел Велихов

Начало в 18.00

OpenStack или как не стоит делать проекты (14.04.2015)

Доклад посвящен проекту OpenStack, предназначенному для создания инфраструктурных облачных сервисов и облачных хранилищ. В докладе будут рассмотрены следующие аспекты проекта:

Разбор того как устроено сообщество OpenStack
OpenStack маркетинг или почему он так популярен
Разбор архитектурных ошибок
Разбор организационных ошибок
Почему из OpenStack-а невозможно сделать продукт

Докладчик: Борис Павлович

Видео: https://www.youtube.com/watch?v=EQETZ9Margc

EgoZoom: визуализация и анализ эго-сетей пользователей социальных сервисов (07.04.2015)

Онлайновые социальные сети, помимо коммуникационной функции, играют роль хранилищ персональной информации о каждом из пользователей. Сервисы персональной аналитики (Yasiv, TouchGraph, Wolfram|Alpha Personal Analytics и другие) позволяют каждому пользователю анализировать и визуализировать информацию своего аккаунта, а также данные своих соседей в социальном графе. Особый интерес представляет построение и исследование т.н. «эго-сети», состоящей из пользователя и всех его соседей, соединённых социальными связями.

Доклад посвящён разработанному в ИСП РАН сервису персональной аналитики EgoZoom, который позволяет пользователям Twitter в интерактивном режиме загружать и исследовать свою эго-сеть. Сервис позволяет искать социальные круги (сообщества) среди контактов пользователя, а также определять демографические атрибуты (пол, возраст, уровень образования и другие) по текстам твитов. Полученная эго-сеть с атрибутами и сообществами пользователей визуализируется в браузере с возможностью исследования как отдельных пользователей, так и подмножеств пользователей, объединённых общим набором атрибутов и/или участием в одних и тех же сообществах. Сервис позволяет исследовать социальные связи, сообщества, атрибуты и контент выбранных пользователей. Помимо владельцев аккаунтов, результаты работы сервиса могут представлять интерес для социологов и маркетологов, позволяя получить приближённое представление о кластерной структуре и распределениях значений атрибутов в эго-сети некоторого пользователя Twitter.

Демо-версия сервиса доступна по адресу: http://egozoom.at.ispras.ru/

Видеозапись семинара: http://www.youtube.com/watch?v=j-Yo4Vrh9TA

Докладчик: Антон Коршунов

MOSON: фреймворк для обработки социальных данных (31.03.2015)

Одним из направлений исследований в отделе Информационных систем ИСП РАН является анализ социальных сетей. Решаются такие задачи, как поиск сообществ, извлечение демографических атрибутов пользователей, объединение аккаунтов пользователей различных социальных сетей, оценка влиятельности пользователей и другие.

Доклад посвящен разрабатываемому в отделе фреймворку для обработки социальных данных MOSON, который позволяет реализовать решения упомянутых выше задач в рамках одной системы.
На данный момент реализована модель данных, средства для загрузки данных из MongoDB, алгоритмы поиска сообществ и определения демографических атрибутов пользователей.

В рамках доклада будет рассказано о предлагаемой модели данных социального графа. Кроме того, будет показано, как использовать фреймворк совместно с другими разработками.

Докладчик: Андрей Гомзин

Объединение аккаунтов пользователя из различных социальных сетей (24.03.2015)

Известно, что один и тот же пользователь может иметь несколько аккаунтов в различных социальных сервисах. Задача объединения таких аккаунтов в единую запись о пользователе актуальна для мобильных устройств и персонализированных сервисов, зависящих от точности пользовательской модели.
В докладе будет рассмотрен метод решения этой задачи для случая двух эго-сетей одного пользователя в различных сервисах [1]. Также будет рассмотрена реализация решения на языке Java с использованием программного фреймворка MOSON, разрабатываемого в ИСП РАН.
Литература:

Bartunov S. et al. Joint link-attribute user identity resolution in online social networks //Proceedings of the 6th International Conference on Knowledge Discovery and Data Mining, Workshop on Social Network Mining and Analysis. ACM. – 2012.
Ravikumar P., Lafferty J. Quadratic programming relaxations for metric labeling and markov random field map estimation //Proceedings of the 23rd international conference on Machine learning. – ACM, 2006. – С. 737-744
Lafferty J., McCallum A., Pereira F. C. N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. – 2001.

Докладчик: Ярослав Бондарчук

Видео: https://youtu.be/ZG3IHJdRbuw

Тестирование решений класса In-Memory Data Grid (17.03.2015)

Этот доклад будет посвящен недавнему проекту с крупным заказчиком. В докладе будет описано, с какими трудностями столкнулась команда, и будет приведен список подводных камней, которые встретились в ходе проекта. Будут затронуты вопросы построения тестовой системы для тестирования, описаны основные возможности тестируемых решений и краткие результаты, полученные в ходе тестирования.

Докладчик: Олег Борисенко

Видео: http://www.youtube.com/watch?v=gnaOvIiaxQI

Построение аннотированных леммами корпусов текстов с помощью Wiktionary (10.03.2015)

Лемматизация (приведение слова к канонической форме) применяется при обработке естественного языка и во многих других областях, которые касаются лингвистики в целом. Методы лемматизации основанные на машинном обучении нуждаются в больших тренировочных данных. Проблема отсутствия аннотированных леммами корпусов для многих языков может быть решена с помощью автоматического построения аннотированных корпусов из коллекции текстов.
В ходе доклада будет проиллюстрирован такой метод, основанный на Wiktionary.

Докладчик: Лариса Адамян

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for the ‘Аннотации’ Category