Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Гомзин Андрей

Одним из направлений исследований в отделе Информационных систем ИСП РАН является анализ социальных сетей. Решаются такие задачи, как поиск сообществ, извлечение демографических атрибутов пользователей, объединение аккаунтов пользователей различных социальных сетей, оценка влиятельности пользователей и другие. Доклад посвящен разрабатываемому в отделе фреймворку для обработки социальных данных MOSON, который позволяет реализовать решения упомянутых выше задач в рамках […]

Для обучения и оценки качества методов анализа социальных сетей требуются данные: информация о пользователях реальных социальных сетей. Данный доклад посвящен одному из аспектов сбора таких данных – сэмплингу. В рамках доклада будут рассмотрены различные способы получения репрезентативной выборки пользователей социальных сетей, так называемые, методы сэмплинга (англ. sampling). При этом будут освещены как классические подходы (поиск […]

Тематическое моделирование — способ построения модели коллекции текстовых документов, в которой определяется, к каким темам относится каждый из документов. Тематические модели позволяют эффективно решать такие задачи, как тематический поиск, классификация, реферирование коллекций документов и новостных потоков. Доклад посвящен большому классу тематических моделей – вероятностным тематическим моделям. Будет показано преимущество этих моделей перед другими, более ранними. […]

Доклад посвящен одному из алгоритмов машинного обучения – случайному лесу (Random Forest). Случайный лес – метод, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев в задачах классификации, регрессии и кластеризации. Random Forest способен эффективно обрабатывать данные с большим числом признаков и классов, его качество сравнимо с SVM и бустингом. Он […]

Коллаборативная фильтрация (англ. collaborative filtering) – группа методов, прогнозирующих интересы конкретного пользователя по собранной информации о вкусах и предпочтениях множества пользователей. Методы коллаборативной фильтрации делятся на 2 типа: основанные на сходстве пользователей или объектов основанные на моделях. Алгоритмы-представители каждого типа будут подробно рассмотрены в ходе доклада. Также будет рассказано о метриках качества, используемых для оценки […]

MapReduce – это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce – первой реализации модели MapReduce, и об Apache Hadoop – реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere. Докладчик: Гомзин Андрей Материалы: MapReduce, Sawzall: MapReduce: Simplified Data Processing on Large Cluster […]