Posts Tagged ‘Гомзин Андрей’

MOSON: фреймворк для обработки социальных данных (31.03.2015)

Одним из направлений исследований в отделе Информационных систем ИСП РАН является анализ социальных сетей. Решаются такие задачи, как поиск сообществ, извлечение демографических атрибутов пользователей, объединение аккаунтов пользователей различных социальных сетей, оценка влиятельности пользователей и другие.

Доклад посвящен разрабатываемому в отделе фреймворку для обработки социальных данных MOSON, который позволяет реализовать решения упомянутых выше задач в рамках одной системы.
На данный момент реализована модель данных, средства для загрузки данных из MongoDB, алгоритмы поиска сообществ и определения демографических атрибутов пользователей.

В рамках доклада будет рассказано о предлагаемой модели данных социального графа. Кроме того, будет показано, как использовать фреймворк совместно с другими разработками.

Докладчик: Андрей Гомзин

Методы получения репрезентативной выборки пользователей социальной сети (18.03.14)

Для обучения и оценки качества методов анализа социальных сетей требуются данные: информация о пользователях реальных социальных сетей. Данный доклад посвящен одному из аспектов сбора таких данных — сэмплингу.
В рамках доклада будут рассмотрены различные способы получения репрезентативной выборки пользователей социальных сетей, так называемые, методы сэмплинга (англ. sampling). При этом будут освещены как классические подходы (поиск в ширину, случайные блуждания и др.), так и современные методы, которые «налету» используют извлекаемую в процессе скачивания информацию (например, сообщества пользователей) для повышения качества дальнейшего сбора.
От качества получаемой выборки сильно зависит качество алгоритмов, использующих эти данные. Поэтому будут рассмотрены различные критерии, по которым оценивается репрезентативность получаемой выборки пользователей. В конце доклада будет кратко рассказано о фреймворке MODIS Crawler, который предназначен для автоматического сбора данных из Интернета, в частности, из социальных сетей.

Докладчик: Андрей Гомзин

Презентация (pdf)

Список литературы:

1. Leskovec J., Faloutsos C. Sampling from large graphs //Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery
and data mining. — ACM, 2006. — С. 631-636.
http://www.stat.cmu.edu/~fienberg/Stat36-835/Leskovec-sampling-kdd06.pdf

2. PAKDD 2013 Tutorial: Sampling and Summarization for Social Networks
http://mslab.csie.ntu.edu.tw/tut-pakdd13/

3. Leskovec J., Kleinberg J., Faloutsos C. Graphs over time: densification laws, shrinking diameters and possible explanations
//Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining. — ACM, 2005. — С. 177-187.
http://eprints.pascal-network.org/archive/00001220/01/powergrowth-kdd05.pdf

4. Blenn N. et al. Crawling and detecting community structure in online social networks using local information //NETWORKING 2012. —
Springer Berlin Heidelberg, 2012. — С. 56-67.
http://repository.tudelft.nl/assets/uuid:61624ff0-d637-497a-9bf1-355638b63c7e/Crawling.pdf

Вероятностные тематические модели (4.12.2012)

Тематическое моделирование — способ построения модели коллекции текстовых документов, в которой определяется, к каким темам относится каждый из документов. Тематические модели позволяют эффективно решать такие задачи, как тематический поиск, классификация, реферирование коллекций документов и новостных потоков.
Доклад посвящен большому классу тематических моделей — вероятностным тематическим моделям. Будет показано преимущество этих моделей перед другими, более ранними. В ходе доклада будут рассмотрены основные принципы, а также наиболее известные примеры вероятностных тематических моделей:

  • Latent Dirichlet Allocation (Скрытое размещение Дирихле)
  • Hierarchical Latent Dirichlet Allocation (Иерархическое скрытое размещение Дирихле)

Также будет рассказано об оценке качества вероятностных тематических моделей.

Докладчик: Андрей Гомзин

Материалы:

  1. Mining Text Data (Springer) Ed. Charu Aggarwal, ChengXiang Zhai, March 2012. Chapters 5 and 8.
  2. Blei, David M. (April 2012). Introduction to Probabilistic Topic Models. Comm. ACM 55 (4): 77-84. [PDF]
  3. D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical topic models and the nested Chinese restaurant process. Neural Information Processing Systems 16, 2003 [PDF]

Презентация с семинара

Алгоритм машинного обучения Random Forest (02.10.12)

Доклад посвящен одному из алгоритмов машинного обучения — случайному лесу (Random Forest). Случайный лес — метод, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев в задачах классификации, регрессии и кластеризации. Random Forest способен эффективно обрабатывать данные с большим числом признаков и классов, его качество сравнимо с SVM и бустингом. Он отличается высокой параллелизуемостью и масштабируемостью.

Докладчик: Андрей Гомзин

Материалы:

  1. http://ru.wikipedia.org/wiki/Random_forest
  2. Andy Liaw and Matthew Wiener. Random Forest: A Classification and Regression Tool for сompound Classification and QSAR Modeling.
  3. Leo Breiman. Random Forests.

Презентация с семинара (pdf)

Коллаборативная фильтрация (29.11.11)

Коллаборативная фильтрация (англ. collaborative filtering) — группа методов, прогнозирующих интересы конкретного пользователя по собранной информации о вкусах и предпочтениях множества пользователей.

Методы коллаборативной фильтрации делятся на 2 типа:

  • основанные на сходстве пользователей или объектов
  • основанные на моделях.

Алгоритмы-представители каждого типа будут подробно рассмотрены в ходе доклада. Также будет рассказано о метриках качества, используемых для оценки алгоритмов рекомендаций, и о некоторых открытых проблемах.

Докладчик: Гомзин Андрей

Материалы:

презентация с семинара (pdf)

Модели распределенной обработки данных (29.03.11)

MapReduce — это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce — первой реализации модели MapReduce, и об Apache Hadoop — реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere.

Докладчик: Гомзин Андрей

Материалы:

MapReduce, Sawzall:
MapReduce: Simplified Data Processing on Large Cluster
Interpreting the Data: Parallel Analysis with Sawzall

Apache Hadoop:
Hadoop: The Definitive Guide (глава 6)

Sector/Sphere:
Sector and Sphere: the design and implementation of a high-performance data cloud
Дополнительно: Processing Massive Sized Graphs Using Sector/Sphere

Microsoft Dryad:
Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks
DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language

Презентация с семинара