Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts tagged Бартунов Сергей

Доклад посвящен двум недавно предложенным лог-линейным архитектурам для построения векторных представлений слов Skip-gram и Continuous Bag of Words, авторская реализация которых известна как word2vec. Эти архитектуры интересны по целому ряду причин: во-первых, на данный момент это самый быстрый метод построения представлений для слов, к примеру, английская википедия может быть обработана на одной машине всего за […]

Так называемые непараметрические байесовские методы представляют из себя элегантный метод решения проблем контроля сложности и подбора структурных параметров для вероятностных моделей в машинном обучении. Часто применяемые непараметрические распределения вроде процесса Дирихле или процесса индийского буфета предполагают, что моделируемые данные являются симметрично зависимыми (англ. exchangeable), то есть, что порядок, в котором они обрабатываются, не имеет значения. Тем не менее, во многих приложениях, например, […]

В настоящее время мы переживаем бум социальных интернет-сервисов. Каждый год появляется множество как общенаправленных, так и нишевых социальных сервисов, и для активных пользователей Интернет типично иметь несколько профилей в различных социальных сетях. Обнаружение профилей, принадлежащих одному человеку, в нескольких социальных сетях, позволяет получить более полный социальный граф, что может быть полезно во многих задачах, таких как информационный поиск, интернет-реклама, рекомендательные системы […]

Доклад посвящен работе, проделанной в рамках программы Google Summer of Code 2011 для проекта Apache Mahout. Будут рассмотрены различные подходы к решению подобного рода задач, а также проблемы, возникающие при попытке использования парадигмы MapReduce для решения нестандартных задач. Докладчик: Сергей Бартунов Презентация с семинара (pdf)

Apache Mahout – это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов […]

Морфологический анализ – важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества […]

В докладе рассматриваются специальные способы представления Веб-графа, а также эффективные методы его сжатия, реализованные в библиотеке WebGraph, которые основаны на техниках, применяемых при полнотекстовом индексировании. Данные методы используют особые свойства и эмпирические закономерности, наблюдаемые на веб-графе, и позволяют не только добиться значительного уровня сжатия, но и обеспечить эффективный доступ к графу. Докладчик: Бартунов Сергей. Материалы: http://vigna.dsi.unimi.it/ftp/papers/WebGraphI.pdf http://vigna.dsi.unimi.it/ftp/papers/WebGrahII.pdf Презентация с семинара (pdf)