Для обучения и оценки качества методов анализа социальных сетей требуются данные: информация о пользователях реальных социальных сетей. Данный доклад посвящен одному из аспектов сбора таких данных – сэмплингу.
В рамках доклада будут рассмотрены различные способы получения репрезентативной выборки пользователей социальных сетей, так называемые, методы сэмплинга (англ. sampling). При этом будут освещены как классические подходы (поиск в ширину, случайные блуждания и др.), так и современные методы, которые “налету” используют извлекаемую в процессе скачивания информацию (например, сообщества пользователей) для повышения качества дальнейшего сбора.
От качества получаемой выборки сильно зависит качество алгоритмов, использующих эти данные. Поэтому будут рассмотрены различные критерии, по которым оценивается репрезентативность получаемой выборки пользователей. В конце доклада будет кратко рассказано о фреймворке MODIS Crawler, который предназначен для автоматического сбора данных из Интернета, в частности, из социальных сетей.

Докладчик: Андрей Гомзин

Презентация (pdf)

Список литературы:

1. Leskovec J., Faloutsos C. Sampling from large graphs //Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery
and data mining. – ACM, 2006. – С. 631-636.
http://www.stat.cmu.edu/~fienberg/Stat36-835/Leskovec-sampling-kdd06.pdf

2. PAKDD 2013 Tutorial: Sampling and Summarization for Social Networks
http://mslab.csie.ntu.edu.tw/tut-pakdd13/

3. Leskovec J., Kleinberg J., Faloutsos C. Graphs over time: densification laws, shrinking diameters and possible explanations
//Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining. – ACM, 2005. – С. 177-187.
http://eprints.pascal-network.org/archive/00001220/01/powergrowth-kdd05.pdf

4. Blenn N. et al. Crawling and detecting community structure in online social networks using local information //NETWORKING 2012. –
Springer Berlin Heidelberg, 2012. – С. 56-67.
http://repository.tudelft.nl/assets/uuid:61624ff0-d637-497a-9bf1-355638b63c7e/Crawling.pdf