Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Коршунов Антон

Онлайновые социальные сети, помимо коммуникационной функции, играют роль хранилищ персональной информации о каждом из пользователей. Сервисы персональной аналитики (Yasiv, TouchGraph, Wolfram|Alpha Personal Analytics и другие) позволяют каждому пользователю анализировать и визуализировать информацию своего аккаунта, а также данные своих соседей в социальном графе. Особый интерес представляет построение и исследование т.н. “эго-сети”, состоящей из пользователя и всех […]

Известно, что один и тот же пользователь может иметь несколько аккаунтов в различных социальных сервисах. Задача объединения таких аккаунтов в единую запись о пользователе актуальна для мобильных устройств и персонализированных сервисов, зависящих от точности пользовательской модели. В докладе будет рассмотрен метод решения этой задачи для случая двух эго-сетей одного пользователя в различных сервисах [1]. Также […]

Community structure is one of the most important and characteristic features of social networks. Numerous methods for discovering implicit user communities from a social graph of users have been proposed in recent years. However, most of them have performance and scalability issues which make them hardly applicable to population-wide analysis of modern social networks (billions […]

Тематическое моделирование — способ построения модели коллекции текстовых документов, в которой определяется, к каким темам относится каждый из документов. Тематические модели позволяют эффективно решать такие задачи, как тематический поиск, классификация, реферирование коллекций документов и новостных потоков. Доклад посвящен большому классу тематических моделей – вероятностным тематическим моделям. Будет показано преимущество этих моделей перед другими, более ранними. […]

В докладе будет представлен обзор современных технологий для организации распределенных вычислений (таких как Hadoop, MapReduce, BSP, и др.), а также наиболее быстро развивающихся и интересных областей их применения. Детально будут рассмотрены два направления – анализ масштабных графов и обработка потоковых данных в реальном времени. Докладчики: Константин Абакумов, Антон Коршунов Материалы: Hadoop: The Definitive Guide, Second […]

Доклад посвящен теме поиска сообществ пользователей в социальных графах. Освещены новые подходы к решению этой проблемы. Рассмотрен алгоритм решения задачи поиска максимальных клик в графе, являющейся базовой для большого числа алгоритмов поиска сообществ. Докладчик: Сергей Рябов Материалы: Conrad Lee, Fergal Reid, Aaron McDaid, Neil Hurley. Detecting Highly Overlapping Community Structure by Greedy Clique Expansion. Etsuji […]

Современные онлайн-приложения управляют огромными потоками данных, обработка которых с использованием лишь традиционных систем хранения и управления данными затруднена. Для эффективной работы таких приложений создано уже немало специализированных распределенных систем. Примером является стек технологий Apache Hadoop, который позволяет строить распределённые системы, выдерживающие высокие нагрузки. В частности, одна из таких систем построена и используется в Facebook для […]

В докладе кратко освещены наиболее значимые технологий стека Apache Hadoop: MapReduce, HBase, ZooKeeper, Hive, Pig и некоторые другие. Также подробно рассмотрена распределённая файловая система Hadoop Distributed File System, отвечающая требованиям производительности, масштабируемости, надёжности и высокой доступности данных. Описаны ключевые архитектурные особенности HDFS и приведены результаты бенчмарков. Доклад состоится 15 марта. Начало в 19.00. Докладчик: Рябов […]

В докладе излагается проблема извлечения информации из списков и представляется авторский подход к решению данной задачи. Рассматривается алгоритм создания таблиц из списков, разбираются основные этапы алгоритмы : разделение строк списка на части, выравнивание, очистка и улучшение таблицы. Также даются экспериментальные оценки подхода к решению проблемы и информация о связанных задачах. Докладчик: Агаев Нурлан Материалы: Harvesting […]