word2vec и с чем его закусывают (11.11.2014)

Доклад посвящен двум недавно предложенным лог-линейным архитектурам для построения векторных представлений слов Skip-gram и Continuous Bag of Words, авторская реализация которых известна как word2vec. Эти архитектуры интересны по целому ряду причин: во-первых, на данный момент это самый быстрый метод построения представлений для слов, к примеру, английская википедия может быть обработана на одной машине всего за пару часов. Во-вторых, полученные представления сохраняют большое количество семантической информации (близкие по смыслу слова имеют близкие представления) и могут быть использованы в огромном числе приложений. В-третьих, обе архитектуры были получены не путем усложнения существующих подходов, как это часто бывает, а, напротив, упрощения. В докладе будут разобраны обе архитектуры, а также некоторые их расширения, например, для построения представлений на уровне абзацев и предложений.

Докладчик: Сергей Бартунов

Презентация: word2vec_ispras

Distance-dependent Chinese Restaurant Process (26.11.13)

Так называемые непараметрические байесовские методы представляют из себя элегантный метод решения проблем контроля сложности и подбора структурных параметров для вероятностных моделей в машинном обучении. Часто применяемые непараметрические распределения вроде процесса Дирихле или процесса индийского буфета предполагают, что моделируемые данные являются симметрично зависимыми (англ. exchangeable), то есть, что порядок, в котором они обрабатываются, не имеет значения. Тем не менее, во многих приложениях, например, в анализе изображений или текстов на естественном языке, данные, как правило, имеют внутренние
зависимости, использование которых может значительно улучшить качество получаемых результатов. ddCRP — относительно новый непараметрический процесс, обобщающий широко применяемый процесс китайского ресторана и позволяющий учитывать произвольные зависимости в данных. В докладе будет подробно рассмотрен ddCRP, различные его свойства, включая недавно открытые и пока не опубликованные, а также возможные приложения.

Докладчик: Сергей Бартунов.

Методы идентификации пользователей в онлайновых социальных сетях (28.02.12)

В настоящее время мы переживаем бум социальных интернет-сервисов. Каждый год появляется множество как общенаправленных, так и нишевых социальных сервисов, и для активных пользователей Интернет типично иметь несколько профилей в различных социальных сетях. Обнаружение профилей, принадлежащих одному человеку, в нескольких социальных сетях, позволяет получить более полный социальный граф, что может быть полезно во многих задачах, таких как информационный поиск, интернет-реклама, рекомендательные системы и т.д.

В докладе предлагается оригинальный JLA-метод идентификации пользователей, основанный на модели условных случайных полей (CRF) и активно использующий информацию о социальных связях, что делает его применимым даже в случаях, когда информация о полях пользовательских профилей неполна, недоступна или скрыта из соображений приватности. Эксперименты на данных из двух наиболее популярных в настоящий момент социальных сетей Facebook и Twitter показали, что данный подход работает эффективнее существующих методов и способен сопоставить профили, которые невозможно сопоставить, используя только информацию о полях профилей. В работе также экспериментально демонстрируется, как используя только социальные связи возможно успешно идентифицировать некоторую часть пользователей.

Докладчик: Бартунов Сергей

Материалы:

Veldman, I. (2009) Matching Profiles from Social Network Sites. Master’s thesis, University of Twente.
Gae-won Y., Seung-won H., Zaiqing N., Ji-Rong W. SocialSearch:Enhancing Entity Search with Social Network Matching. EDBT 2011.

презентация с семинара (pdf)

Реализация алгоритма Витерби для Apache Mahout (15.11.11)

Доклад посвящен работе, проделанной в рамках программы Google Summer of Code 2011 для проекта Apache Mahout. Будут рассмотрены различные подходы к решению подобного рода задач, а также проблемы, возникающие при попытке использования парадигмы MapReduce для решения нестандартных задач.

Докладчик: Сергей Бартунов

Презентация с семинара (pdf)

Распределенные алгоритмы машинного обучения (22.03.11)

Apache Mahout — это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов
машинного обучения на Map-Reduce.

Докладчик: Бартунов Сергей

Материалы: http://mahout.apache.org/

Презентация: TIFF PDF

Обзор методов морфологического разбора русского языка (23.11.10)

Морфологический анализ — важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества морфологического разбора.

Докладчик: Бартунов Сергей

Материалы:

Презентация с семинара (pdf)

Методы сжатия веб-графа (16.03.10)

В докладе рассматриваются специальные способы представления Веб-графа, а также эффективные методы его сжатия, реализованные в библиотеке WebGraph, которые основаны на техниках, применяемых при полнотекстовом индексировании. Данные методы используют особые свойства и эмпирические закономерности, наблюдаемые на веб-графе, и позволяют не только добиться значительного уровня сжатия, но и обеспечить эффективный доступ к графу.

Докладчик: Бартунов Сергей.

Материалы:

Презентация с семинара (pdf)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Posts Tagged ‘Бартунов Сергей’

word2vec и с чем его закусывают (11.11.2014)

Distance-dependent Chinese Restaurant Process (26.11.13)

Методы идентификации пользователей в онлайновых социальных сетях (28.02.12)

Реализация алгоритма Витерби для Apache Mahout (15.11.11)

Распределенные алгоритмы машинного обучения (22.03.11)

Обзор методов морфологического разбора русского языка (23.11.10)

Методы сжатия веб-графа (16.03.10)