Author Archive

EgoZoom: визуализация и анализ эго-сетей пользователей социальных сервисов (07.04.2015)

Онлайновые социальные сети, помимо коммуникационной функции, играют роль хранилищ персональной информации о каждом из пользователей. Сервисы персональной аналитики (Yasiv, TouchGraph, Wolfram|Alpha Personal Analytics и другие) позволяют каждому пользователю анализировать и визуализировать информацию своего аккаунта, а также данные своих соседей в социальном графе. Особый интерес представляет построение и исследование т.н. «эго-сети», состоящей из пользователя и всех его соседей, соединённых социальными связями.

Доклад посвящён разработанному в ИСП РАН сервису персональной аналитики EgoZoom, который позволяет пользователям Twitter в интерактивном режиме загружать и исследовать свою эго-сеть. Сервис позволяет искать социальные круги (сообщества) среди контактов пользователя, а также определять демографические атрибуты (пол, возраст, уровень образования и другие) по текстам твитов. Полученная эго-сеть с атрибутами и сообществами пользователей визуализируется в браузере с возможностью исследования как отдельных пользователей, так и подмножеств пользователей, объединённых общим набором атрибутов и/или участием в одних и тех же сообществах. Сервис позволяет исследовать социальные связи, сообщества, атрибуты и контент выбранных пользователей. Помимо владельцев аккаунтов, результаты работы сервиса могут представлять интерес для социологов и маркетологов, позволяя получить приближённое представление о кластерной структуре и распределениях значений атрибутов в эго-сети некоторого пользователя Twitter.

Демо-версия сервиса доступна по адресу: http://egozoom.at.ispras.ru/

Видеозапись семинара: http://www.youtube.com/watch?v=j-Yo4Vrh9TA

Докладчик: Антон Коршунов

MOSON: фреймворк для обработки социальных данных (31.03.2015)

Одним из направлений исследований в отделе Информационных систем ИСП РАН является анализ социальных сетей. Решаются такие задачи, как поиск сообществ, извлечение демографических атрибутов пользователей, объединение аккаунтов пользователей различных социальных сетей, оценка влиятельности пользователей и другие.

Доклад посвящен разрабатываемому в отделе фреймворку для обработки социальных данных MOSON, который позволяет реализовать решения упомянутых выше задач в рамках одной системы.
На данный момент реализована модель данных, средства для загрузки данных из MongoDB, алгоритмы поиска сообществ и определения демографических атрибутов пользователей.

В рамках доклада будет рассказано о предлагаемой модели данных социального графа. Кроме того, будет показано, как использовать фреймворк совместно с другими разработками.

Докладчик: Андрей Гомзин

Объединение аккаунтов пользователя из различных социальных сетей (24.03.2015)

Известно, что один и тот же пользователь может иметь несколько аккаунтов в различных социальных сервисах. Задача объединения таких аккаунтов в единую запись о пользователе актуальна для мобильных устройств и персонализированных сервисов, зависящих от точности пользовательской модели.
В докладе будет рассмотрен метод решения этой задачи для случая двух эго-сетей одного пользователя в различных сервисах [1]. Также будет рассмотрена реализация решения на языке Java с использованием программного фреймворка MOSON, разрабатываемого в ИСП РАН.
Литература:

  • Bartunov S. et al. Joint link-attribute user identity resolution in online social networks //Proceedings of the 6th International Conference on Knowledge Discovery and Data Mining, Workshop on Social Network Mining and Analysis. ACM. – 2012.
  • Ravikumar P., Lafferty J. Quadratic programming relaxations for metric labeling and markov random field map estimation //Proceedings of the 23rd international conference on Machine learning. – ACM, 2006. – С. 737-744
  • Lafferty J., McCallum A., Pereira F. C. N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. – 2001.

Докладчик: Ярослав Бондарчук

Видео: https://youtu.be/ZG3IHJdRbuw

Тестирование решений класса In-Memory Data Grid (17.03.2015)

Этот доклад будет посвящен недавнему проекту с крупным заказчиком. В докладе будет описано, с какими трудностями столкнулась команда, и будет приведен список подводных камней, которые встретились в ходе проекта. Будут затронуты вопросы построения тестовой системы для тестирования, описаны основные возможности тестируемых решений и краткие результаты, полученные в ходе тестирования.

Докладчик: Олег Борисенко

Видео: http://www.youtube.com/watch?v=gnaOvIiaxQI

Построение аннотированных леммами корпусов текстов с помощью Wiktionary (10.03.2015)

Лемматизация (приведение слова к канонической форме) применяется при обработке естественного языка и во многих других областях, которые касаются лингвистики в целом. Методы лемматизации основанные на машинном обучении нуждаются в больших тренировочных данных. Проблема отсутствия аннотированных леммами корпусов для многих языков может быть решена с помощью автоматического построения аннотированных корпусов из коллекции текстов.
В ходе доклада будет проиллюстрирован такой метод, основанный на Wiktionary.

Докладчик: Лариса Адамян

Разработка аппроксимации универсальной индукции на основе вывода рекурсивных графов решений (03.03.2015)

В докладе рассматриваются рекурсивные графы решений как способ аппроксимации универсальной индукции. Вначале дается общее понятие об универсальной индукции и показывается ее невычислимость. Представляется метод аппроксимации универсальной индукции с помощью деревьев решений. Затем вводятся графы решений как обобщение деревьев. Основное внимание уделено методу эффективного вычисления мат.ожидания по смеси графов, а также способу индексации подграфов для быстрого поиска подграфов одинаковой структуры.

Докладчик: Михаил Дробышевский

Презентация (pdf)

Презентации дипломов и курсовых

Промежуточные отчетные презентации студентов по дипломам и курсовым будут заслушаны
3 курс — 22 декабря (понедельник) в 18.30
4 и 5 курсы — 23 декабря (вторник) в 19.00

Каждый студент должен подготовить короткую презентацию (не более 4 минут) с постановкой задачи, проделанной работой и планом дальнейшей работы. Презентация должна быть согласована с научным руководителем.

P.S. Напоминаю, в этом году все дипломы должны быть готовы до 30 апреля (требование кафедры).

EgoLP: Fast and Distributed Community Detection in Billion-node Social Networks (09.12.2014)

Community structure is one of the most important and characteristic features of social networks. Numerous methods for discovering implicit user communities from a social graph of users have been proposed in recent years. However, most of them have performance and scalability issues which make them hardly applicable to population-wide analysis of modern social networks (billions of users and growing).

We present EgoLP – an efficient and fully distributed method for social community detection. The method is based on propagating community labels through the network with the help of friendship groups of individual users. Experimental evaluation of Apache Spark implementation of the method showed that it outperforms some state-of-the-art methods in terms of

a) similarity of extracted communities to the reference ones from synthetic networks;

b) precision of user attributes prediction in Facebook based solely on community memberships;

c) likelihood of the discovered community structure according to the proposed generative model.

At the same time, the method retains near-linear complexity in the number of edges and is thus applicable to social graphs of up to 10^9 users.

Speaker: Anton Korshunov

Презентация: modis-egolp

Видео: http://www.youtube.com/watch?v=_fuRWoSWV2Y

NetBlox: система для исследования модульной структуры сложных сетей (02.12.2014)

Доклад посвящён системе NetBlox, разработанной в отделе информационных систем для исследования сложных сетей, включая определение и анализ их модульной (кластерной) структуры. Основным приложением системы в настоящий момент является исследование сообществ пользователей социальных сетей. Известно множество программных пакетов, позволяющих моделировать и исследовать графы, но возможности кластерного анализа в большинстве из них достаточно ограничены, равно как и возможности расширения доступного набора инструментов.
NetBlox позволяет применять различные алгоритмы кластеризации с последующей визуализацией и детальным анализом найденных кластеров, исследовать известную структуру кластеров сети, исследовать зависимость качества кластеризации от используемых алгоритмов и их параметров, генерировать случайные графы с известной структурой кластеров для расширенного тестирования алгоритмов кластеризации, а также применять другие методы анализа структуры связей в исследуемых сетях. Кроме того, система позволяет добавлять новые алгоритмы изучения сложных сетей, способы оценки качества результатов их работы, а также способы анализа заранее известной или алгоритмически найденной структуры кластеров.

Докладчик: Илья Филоненко

Видео: http://www.youtube.com/watch?v=kK2Ul7DbB1w

Презентация: доклад по NetBlox (слайды)

Новый подход к вычислению SimRank (25.11.2014)

SimRank — популярный индекс похожести вершин графа нашедший применение во многих задачах, основным недостатком которого является высокая сложность вычисления и высокие затраты оперативной памяти. В данной работе предложена малоранговая аппроксимация симранка, вычисляемая за O(n^2r) и требующая O(nr) памяти (r – ранк аппроксимации), приводятся численные эксперименты на графах из коллекции DIMACS10 и графе Simple English Wikipedia.

Докладчик: Георгий Овчинников

Презентация: simrank_talk_ru

Видео: http://www.youtube.com/watch?v=rGBGOO0gmMI