EgoZoom: визуализация и анализ эго-сетей пользователей социальных сервисов (07.04.2015)

Онлайновые социальные сети, помимо коммуникационной функции, играют роль хранилищ персональной информации о каждом из пользователей. Сервисы персональной аналитики (Yasiv, TouchGraph, Wolfram|Alpha Personal Analytics и другие) позволяют каждому пользователю анализировать и визуализировать информацию своего аккаунта, а также данные своих соседей в социальном графе. Особый интерес представляет построение и исследование т.н. «эго-сети», состоящей из пользователя и всех его соседей, соединённых социальными связями.

Доклад посвящён разработанному в ИСП РАН сервису персональной аналитики EgoZoom, который позволяет пользователям Twitter в интерактивном режиме загружать и исследовать свою эго-сеть. Сервис позволяет искать социальные круги (сообщества) среди контактов пользователя, а также определять демографические атрибуты (пол, возраст, уровень образования и другие) по текстам твитов. Полученная эго-сеть с атрибутами и сообществами пользователей визуализируется в браузере с возможностью исследования как отдельных пользователей, так и подмножеств пользователей, объединённых общим набором атрибутов и/или участием в одних и тех же сообществах. Сервис позволяет исследовать социальные связи, сообщества, атрибуты и контент выбранных пользователей. Помимо владельцев аккаунтов, результаты работы сервиса могут представлять интерес для социологов и маркетологов, позволяя получить приближённое представление о кластерной структуре и распределениях значений атрибутов в эго-сети некоторого пользователя Twitter.

Демо-версия сервиса доступна по адресу: http://egozoom.at.ispras.ru/

Видеозапись семинара: http://www.youtube.com/watch?v=j-Yo4Vrh9TA

Докладчик: Антон Коршунов

Объединение аккаунтов пользователя из различных социальных сетей (24.03.2015)

Известно, что один и тот же пользователь может иметь несколько аккаунтов в различных социальных сервисах. Задача объединения таких аккаунтов в единую запись о пользователе актуальна для мобильных устройств и персонализированных сервисов, зависящих от точности пользовательской модели.
В докладе будет рассмотрен метод решения этой задачи для случая двух эго-сетей одного пользователя в различных сервисах [1]. Также будет рассмотрена реализация решения на языке Java с использованием программного фреймворка MOSON, разрабатываемого в ИСП РАН.
Литература:

Bartunov S. et al. Joint link-attribute user identity resolution in online social networks //Proceedings of the 6th International Conference on Knowledge Discovery and Data Mining, Workshop on Social Network Mining and Analysis. ACM. – 2012.
Ravikumar P., Lafferty J. Quadratic programming relaxations for metric labeling and markov random field map estimation //Proceedings of the 23rd international conference on Machine learning. – ACM, 2006. – С. 737-744
Lafferty J., McCallum A., Pereira F. C. N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. – 2001.

Докладчик: Ярослав Бондарчук

Видео: https://youtu.be/ZG3IHJdRbuw

EgoLP: Fast and Distributed Community Detection in Billion-node Social Networks (09.12.2014)

Community structure is one of the most important and characteristic features of social networks. Numerous methods for discovering implicit user communities from a social graph of users have been proposed in recent years. However, most of them have performance and scalability issues which make them hardly applicable to population-wide analysis of modern social networks (billions of users and growing).

We present EgoLP – an efficient and fully distributed method for social community detection. The method is based on propagating community labels through the network with the help of friendship groups of individual users. Experimental evaluation of Apache Spark implementation of the method showed that it outperforms some state-of-the-art methods in terms of

a) similarity of extracted communities to the reference ones from synthetic networks;

b) precision of user attributes prediction in Facebook based solely on community memberships;

c) likelihood of the discovered community structure according to the proposed generative model.

At the same time, the method retains near-linear complexity in the number of edges and is thus applicable to social graphs of up to 10^9 users.

Speaker: Anton Korshunov

Презентация: modis-egolp

Видео: http://www.youtube.com/watch?v=_fuRWoSWV2Y

Вероятностные тематические модели (4.12.2012)

Тематическое моделирование — способ построения модели коллекции текстовых документов, в которой определяется, к каким темам относится каждый из документов. Тематические модели позволяют эффективно решать такие задачи, как тематический поиск, классификация, реферирование коллекций документов и новостных потоков.
Доклад посвящен большому классу тематических моделей — вероятностным тематическим моделям. Будет показано преимущество этих моделей перед другими, более ранними. В ходе доклада будут рассмотрены основные принципы, а также наиболее известные примеры вероятностных тематических моделей:

Latent Dirichlet Allocation (Скрытое размещение Дирихле)
Hierarchical Latent Dirichlet Allocation (Иерархическое скрытое размещение Дирихле)

Также будет рассказано об оценке качества вероятностных тематических моделей.

Докладчик: Андрей Гомзин

Материалы:

Mining Text Data (Springer) Ed. Charu Aggarwal, ChengXiang Zhai, March 2012. Chapters 5 and 8.
Blei, David M. (April 2012). Introduction to Probabilistic Topic Models. Comm. ACM 55 (4): 77-84. [PDF]
D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical topic models and the nested Chinese restaurant process. Neural Information Processing Systems 16, 2003 [PDF]

Презентация с семинара

Новые подходы к применению распределённых вычислений для обработки больших данных (20.11.2012)

В докладе будет представлен обзор современных технологий для организации распределенных вычислений (таких как Hadoop, MapReduce, BSP, и др.), а также наиболее быстро развивающихся и интересных областей их применения. Детально будут рассмотрены два направления — анализ масштабных графов и обработка потоковых данных в реальном времени.

Докладчики: Константин Абакумов, Антон Коршунов

Материалы:

Презентация с семинара

Исследование и разработка распределённых алгоритмов для поиска сообществ пользователей в социальных сетях

Доклад посвящен теме поиска сообществ пользователей в социальных графах. Освещены новые подходы к решению этой проблемы. Рассмотрен алгоритм решения задачи поиска максимальных клик в графе, являющейся базовой для большого числа алгоритмов поиска сообществ.

Докладчик: Сергей Рябов

Материалы:

Conrad Lee, Fergal Reid, Aaron McDaid, Neil Hurley. Detecting Highly Overlapping Community Structure by Greedy Clique Expansion.
Etsuji Tomita, Akira Tanaka, Haruhisa Takahashi. The worst-case time complexity for generating all maximal cliques and computational experiments.

презентация с семинара (pdf)

Facebook: обработка в реальном времени на Apache Hadoop (22.11.11)

Современные онлайн-приложения управляют огромными потоками данных, обработка которых с использованием лишь традиционных систем хранения и управления данными затруднена. Для эффективной работы таких приложений создано уже немало специализированных распределенных систем. Примером является стек технологий Apache Hadoop, который позволяет строить распределённые системы, выдерживающие высокие нагрузки. В частности, одна из таких систем построена и используется в Facebook для приложения Facebook Messages. В докладе рассмотрены основные технологий стека Apache Hadoop, а также изменения, внесенные в него инженерами Facebook для повышения стабильности и эффективности работы.

Докладчик: Константин Абакумов

Материалы:

Dhruba Borthakur, Joydeep Sen Sarma, Jonathan Gray. Apache Hadoop Goes Realtime at Facebook. (pdf)
Tom White. Hadoop: The Definitive Guide, 2nd Edition
HDFS: ht tp://kazman.shidler.hawaii.edu/ArchDoc.htm
Google BigTable: ttp://static.googleusercontent.com/external_content/untrusted_dlcp/labs.google.com/en//papers/bigtable-osdi06.pdf l
ZooKeeper: http://www.usenix.org/event/atc10/tech/full_papers/Hunt.pdf
HDFS Replication Policy: https://issues.apache.org/jira/browse/HDFS-1094

Презентация с семинара (html)

Обзор стека технологий Apache Hadoop для распределённой обработки данных. Распределённая файловая система HDFS

В докладе кратко освещены наиболее значимые технологий стека Apache Hadoop: MapReduce, HBase, ZooKeeper, Hive, Pig и некоторые другие. Также подробно рассмотрена распределённая файловая система Hadoop Distributed File System, отвечающая требованиям производительности, масштабируемости, надёжности и высокой доступности данных. Описаны ключевые архитектурные особенности HDFS и приведены результаты бенчмарков.
Доклад состоится 15 марта. Начало в 19.00.

Докладчик: Рябов Сергей

Презентация с семинара (pptx)

Извлечение информации из списков (12.10.10)

В докладе излагается проблема извлечения информации из списков и представляется авторский подход к решению данной задачи. Рассматривается алгоритм создания таблиц из списков, разбираются основные этапы алгоритмы : разделение строк списка на части, выравнивание, очистка и улучшение таблицы. Также даются экспериментальные оценки подхода к решению проблемы и информация о связанных задачах.

Докладчик: Агаев Нурлан

Материалы:

Harvesting Relational Tables from Lists on the Web

Презентация с семинара (pdf)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Posts Tagged ‘Коршунов Антон’

EgoZoom: визуализация и анализ эго-сетей пользователей социальных сервисов (07.04.2015)

Объединение аккаунтов пользователя из различных социальных сетей (24.03.2015)

EgoLP: Fast and Distributed Community Detection in Billion-node Social Networks (09.12.2014)

Вероятностные тематические модели (4.12.2012)

Новые подходы к применению распределённых вычислений для обработки больших данных (20.11.2012)

Исследование и разработка распределённых алгоритмов для поиска сообществ пользователей в социальных сетях

Facebook: обработка в реальном времени на Apache Hadoop (22.11.11)

Обзор стека технологий Apache Hadoop для распределённой обработки данных. Распределённая файловая система HDFS

Извлечение информации из списков (12.10.10)