word2vec и с чем его закусывают (11.11.2014)

Доклад посвящен двум недавно предложенным лог-линейным архитектурам для построения векторных представлений слов Skip-gram и Continuous Bag of Words, авторская реализация которых известна как word2vec. Эти архитектуры интересны по целому ряду причин: во-первых, на данный момент это самый быстрый метод построения представлений для слов, к примеру, английская википедия может быть обработана на одной машине всего за пару часов. Во-вторых, полученные представления сохраняют большое количество семантической информации (близкие по смыслу слова имеют близкие представления) и могут быть использованы в огромном числе приложений. В-третьих, обе архитектуры были получены не путем усложнения существующих подходов, как это часто бывает, а, напротив, упрощения. В докладе будут разобраны обе архитектуры, а также некоторые их расширения, например, для построения представлений на уровне абзацев и предложений.

Докладчик: Сергей Бартунов

Презентация: word2vec_ispras

Методы извлечения терминов из коллекции текстов предметной области (28.10.14)

Автоматическое извлечение терминов является важным этапом во многих задачах, связанных с обработкой текстов предметной области. К таким задачам относятся построение глоссариев, тезаурусов или онтологий, информационный поиск, извлечение информации, машинный перевод, классификация и кластеризация документов и другие. К настоящему времени разработано множество методов автоматического извлечения терминов, однако их качество остается достаточно низким, при этом большая часть методов существенно зависит от языка и предметной области входных текстов.
В докладе рассматриваются наиболее популярные методы извлечения терминов из коллекции текстов предметной области, а также предлагаются новые методы, основанные на использовании Википедии и алгоритмов обучения на положительных и неразмеченных примерах.

Докладчик: Никита Астраханцев

Презентация: atr_presentation

Видео: http://www.youtube.com/watch?v=jeEbbq_Rxqc

Обзор методов тематического моделирования для больших коллекций текстовых документов (21.10.14)

Задача тематического моделирования (topic modeling, определение тем текстовых документов) является объектом множества современных исследований. С ростом объемов обрабатываемых данных становится актуальной задача выполнить тематическое моделирование быстро и эффективно. Кроме того, данные могут поступать непрерывным потоком, что требует непрерывного до-обучения алгоритма в процессе работы (online learning).

В докладе будут рассмотрены современные алгоритмы тематического моделирования, применяемые к большим коллекциям текстовых документов. Особый упор будет сделан на аспекты реализации таких алгоритмов в распределенных системах.

Докладчик: Татьяна Борисова

Презентация: Doklad_21_oktyabrya_4

Видео: http://www.youtube.com/watch?v=NiHig51ksu0

Проверка статистических гипотез для сравнения алгоритмов классификации (14.10.14)

При проведение исследований часто возникает задача сравнения различных классификаторов. При этом численные показатели качества работы алгоритмов могут зависеть от случайных факторов и, следовательно прямое сравнение численных показателей не применимо. Более надёжный метод сравнения основан на технике проверки статистических гипотез и применение статистических критериев.

В ходе доклада будут рассмотрены основные понятия математической статистики и продемонстрированы некоторые статистические критерии (Манн-Уитни, ранговый тест Уилкоксона), применительно к задаче сравнения классификаторов.

Докладчик: Илья Козлов

Презентация: presentation

Видео: http://www.youtube.com/watch?v=6cnF8lQRYN0

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for Октябрь, 2014

word2vec и с чем его закусывают (11.11.2014)

Методы извлечения терминов из коллекции текстов предметной области (28.10.14)

Обзор методов тематического моделирования для больших коллекций текстовых документов (21.10.14)

Проверка статистических гипотез для сравнения алгоритмов классификации (14.10.14)