Author Archive

word2vec и с чем его закусывают (11.11.2014)

Доклад посвящен двум недавно предложенным лог-линейным архитектурам для построения векторных представлений слов Skip-gram и Continuous Bag of Words, авторская реализация которых известна как word2vec. Эти архитектуры интересны по целому ряду причин: во-первых, на данный момент это самый быстрый метод построения представлений для слов, к примеру, английская википедия может быть обработана на одной машине всего за пару часов. Во-вторых, полученные представления сохраняют большое количество семантической информации (близкие по смыслу слова имеют близкие представления) и могут быть использованы в огромном числе приложений. В-третьих, обе архитектуры были получены не путем усложнения существующих подходов, как это часто бывает, а, напротив, упрощения. В докладе будут разобраны обе архитектуры, а также некоторые их расширения, например, для построения представлений на уровне абзацев и предложений.

Докладчик: Сергей Бартунов

Презентация: word2vec_ispras

Методы извлечения терминов из коллекции текстов предметной области (28.10.14)

Автоматическое извлечение терминов является важным этапом во многих задачах, связанных с обработкой текстов предметной области. К таким задачам относятся построение глоссариев, тезаурусов или онтологий, информационный поиск, извлечение информации, машинный перевод, классификация и кластеризация документов и другие. К настоящему времени разработано множество методов автоматического извлечения терминов, однако их качество остается достаточно низким, при этом большая часть методов существенно зависит от языка и предметной области входных текстов.
В докладе рассматриваются наиболее популярные методы извлечения терминов из коллекции текстов предметной области, а также предлагаются новые методы, основанные на использовании Википедии и алгоритмов обучения на положительных и неразмеченных примерах.

Докладчик: Никита Астраханцев

Презентация: atr_presentation

Видео: http://www.youtube.com/watch?v=jeEbbq_Rxqc

Обзор методов тематического моделирования для больших коллекций текстовых документов (21.10.14)

Задача тематического моделирования (topic modeling, определение тем текстовых документов) является объектом множества современных исследований. С ростом объемов обрабатываемых данных становится актуальной задача выполнить тематическое моделирование быстро и эффективно. Кроме того, данные могут поступать непрерывным потоком, что требует непрерывного до-обучения алгоритма в процессе работы (online learning).

В докладе будут рассмотрены современные алгоритмы тематического моделирования, применяемые к большим коллекциям текстовых документов. Особый упор будет сделан на аспекты реализации таких алгоритмов в распределенных системах.

Докладчик: Татьяна Борисова

Презентация: Doklad_21_oktyabrya_4

Видео: http://www.youtube.com/watch?v=NiHig51ksu0

Проверка статистических гипотез для сравнения алгоритмов классификации (14.10.14)

При проведение исследований часто возникает задача сравнения различных классификаторов. При этом численные показатели качества работы алгоритмов могут зависеть от случайных факторов и, следовательно прямое сравнение численных показателей не применимо. Более надёжный метод сравнения основан на технике проверки статистических гипотез и применение статистических критериев.

В ходе доклада будут рассмотрены основные понятия математической статистики и продемонстрированы некоторые статистические критерии (Манн-Уитни, ранговый тест Уилкоксона), применительно к задаче сравнения классификаторов.

Докладчик: Илья Козлов

Презентация: presentation

Видео: http://www.youtube.com/watch?v=6cnF8lQRYN0

Учи.ру — интерактивный, онлайн курс по математике для начальной школы (07.10.14)

Компания Учи.ру предлагает интересный и понятный, интерактивный, онлайн курс математики для начальной школы. Сейчас реализованы программы для первого и второго классов, разрабатываются задания для третьего и четвертого классов. Ученики проходят курс в индивидуальном темпе, в зависимости от своих знаний и способностей.

В данном докладе будет рассказано, как устроен продукт изнутри, какие технологии используются, рассмотрены проблемы, с которыми сталкивается образовательный стартап, а также какие технические и исследовательские задачи приходится решать на ежедневной основе.

Докладчик: Алексей Вахов, CTO uchi.ru

Презентация: isp-2014-vakhov_v2.pdf

Видео: http://www.youtube.com/watch?v=xajrvByhNds

Social Network Analysis vs Network Sciecne (22.05.14)

Фактом давней и прочной ассоциации понятий «социальные сети» и Social Media уже сложно кого-то удивить, несмотря на то что они возникли с разницей в полвека. Однако в последнее время  наблюдается тенденция ассоциировать также и теоретические подходы, методы сбора и анализа данных и связанные с ними. Речь идёт о теоретико-методологическом подходе в социальных науках, который называется Social Network Analysis (SNA) и относительно новом направлении в информатике, математике и Computer Science под названием Network Science. Путаница между данными подходами основана прежде всего на том, что теоретические концепты, математические модели и связанные с ними методы сбора и анализа данных, разработанные в рамках одного из подходов зачастую бездумно копируются для решения задач в другом. При условии значительных различий между объектами и предметами исследований это может привести к ложным результатом.  Таким образом, главной целью данного доклада является сравнительный обзор обоих подходов для минимизации подобной путаницы и связанных с ней рисков. В частности, в докладе будет рассказано о ключевых исторических этапах в становлении обоих подходов, их основные теоретические предпосылки, наиболее известные работы и самые часто используемые методы. Также речь пойдёт о примерах исследований, в которых путаница подходов привела к нелепым, оскорбительным и даже опасным результатам.

Докладчик: Александр Семенов

Презентация (pdf)

Методы извлечения именованных сущностей из текстов с использованием категорийной структуры Википедии (29.04.14)

Задача распознавания именованных сущностей состоит в обнаружении и классификации элементов текста — слов и последовательностей слов — по предопределенным категориям. Примерами таких категорий могут являтся категории «личные имена» «географические названия», «названия организаций». Распознавание именованных сущностей находит применение в таких приложениях обработки естественного языка, как автоматизированный сбор новостей, вопросно-ответные системы, кросс-языковой информационный поиск, машинный перевод.

В рамках доклада будут рассмотрены ключевые вопросы построения систем распознавания именованных сущностей. Также будет проведен обзор существующих методов использования Википедии для решения задачи распознавания именованных сущностей.

Докладчик: Кристина Чуприна

Презентация (pdf)

Предсказание сайтов связывания транскрипционных факторов в геноме (22.04.14)

Доклад повествует о решении одной из задач, решаемой совместно с Институтом общей генетики РАН. Задача состоит в том, чтобы предсказывать наиболее вероятные позиции в геноме, с которыми могут взаимодействовать специальные белки.

В докладе рассматриваются основные определения связанных с задачей биологических терминов и алгоритмические подходы к решению этой задачи.

Докладчик: Олег Борисенко

Презентация (pdf)