Archive for the ‘Аннотации’ Category

Методы извлечения и резюмирования критических отзывов пользователей о продукции (22.03.16)

Время начала семинара 17.00.

В настоящее время в связи с увеличением количества пользовательского контента на онлайн-ресурсах (блогах, форумах, сайтах, социальных сетях, сервисах электронной коммерции) анализ мнений (англ. opinion mining) стал полезным инструментом компаний для извлечения требуемой информации из web-ресурсов. В последние десятилетия на рынке потребительских товаров наблюдается резкая динамика увеличения количества технически сложных товаров. Это связано, прежде всего, с развитием технологических инноваций, что приводит к постоянному увеличению конкретных видов компьютерных продуктов, и с концепцией соединения разной функциональности в едином устройстве. В связи с этим покупатели публикуют мнения, содержащие претензии по поводу удобства использования продукта (сервиса, товара) наряду с ненадлежащим техническим качеством.

В работе рассмотрены следующие задачи анализа мнений: классификация текстовых документов, извлечение высказываний относительно объектов мнений определенной предметной области, а так же резюмирование высказываний по тематическим категориям. Целью работы является разработка методов и программных средств извлечения высказываний, составных компонент и функций продуктов, связанных с трудностями в использовании продуктов и учитывающих особенности неструктурированных текстов пользователей в коллекции отзывов предметной области. Научную новизну составляют предложенные методы извлечения высказываний в рассматриваемых задачах анализа мнений пользователей различных предметных областей, основанные на алгоритмах машинного обучения без учителя, словарях и использовании структурной информации лингвистического тезауруса. Улучшение качества разработанных методов по сравнению с существующими методами подтверждено экспериментально с помощью стандартных метрик качества систем анализа текстов на естественном языке. Предложенные методы могут быть использованы при решении прикладных задач анализа мнений: классификации текстовых документов, извлечения информации, кластеризации информации на основе тематических моделей и т.п.

Докладчик: Тутубалина Елена Викторовна
Научный руководитель: д.ф.-м.н., проф., Соловьев Валерий Дмитриевич»

Презентация: pdf

Извлечение информации из Веба (15.03.16)

Доклад посвящен проблеме автоматизации извлечения структурированных данных из веб-страниц. Сегодня Веб хранит колоссальное количество как текстовой, так и медиа-информации и является вместе с тем крупнейшей площадкой для общения людей и обмена мнениями между ними. Эти данные можно использовать для анализа отношения пользователей Веба к различного рода событиям, товарам и услугам, предоставления сервисов агрегации новостей, сравнения цен в интернет-магазинах, рекомендации музыки и фильмов и т.д. Автоматическое извлечение данных, однако, затрудняется нерегулярной структурой HTML-разметки веб-страниц и сложной динамической организацией современных веб-приложений. В докладе я постараюсь рассмотреть основные вопросы, возникающие при решении данной задачи, а также методы их решения на примере классических систем.

Докладчик: Максим Варламов

Литература:

  1. Ferrara E. et al. Web data extraction, applications and techniques: A survey //Knowledge-based systems. – 2014. – Т. 70. – С. 301-323.
  2. Sleiman H. A., Corchuelo R. A survey on region extractors from web documents //Knowledge and Data Engineering, IEEE Transactions on. – 2013. – Т. 25. – №. 9. – С. 1960-1981.
  3. Chang C. H. et al. A survey of web information extraction systems //Knowledge and Data Engineering, IEEE Transactions on. – 2006. – Т. 18. – №. 10. – С. 1411-1428.

Рекуррентные нейронные сети в задачах анализа текстов (01.03.16)

В докладе будут рассмотрены рекуррентные нейронные сети — набирающие популярность модели для обработки последовательностей. Эти модели показывают state-of-the-art результаты во многих задачах анализа текстов, включая анализ тональности, вопросно-ответные системы и машинный перевод. Будут рассмотрены популярные архитектуры Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU) и примеры решения некоторых задач на основе этих моделей при помощи библиотеки глубокого обучения Keras. В частности, будет продемонстрировано решение задачи анализа тональности твитов на русском языке, победившее на соревновании SentiRuEval-2016 по используемому критерию качества.

Докладчик: Константин Архипенко

Презентация: pdf

Метод, алгоритмы и программная система аспектно-эмоционального анализа текстов (16.02.2016)

Доклад посвящён проблеме автоматического анализа тональности текста. Приведена постановка и основные этапы решения задачи аспектно-эмоционального анализа. Рассмотрен алгоритм извлечения аспектных терминов и алгоритм определения их тональности, а также метод аспектно-эмоционального анализа. Приведена структура программной системы и результаты экспериментов на нескольких текстовых корпусах.

Докладчик: Павел Блинов

Задачи дедупликации данных и сопоставления сущностей (10.11.2015)

В современном мире создается и поддерживается большое количество баз данных, содержащих информацию обо всем на свете. Магазины ведут базы клиентов, поставщиков, товаров. Больницы хранят информацию о пациентах. Библиотеки хранят каталоги публикаций.

Совершенно неудивительно, что в результате возникает избыточность. Причин у нее несколько: избыточность внутри одной базы может возникать из-за недостаточно формального формата записи данных или из-за банальных ошибок при первичном вводе. Очевидная причина избыточности между разными базами — отсутствие централизации, причем даже если составители двух разных баз будут знать друг о друге, унификация может быть затруднена из-за разных регламентов заполнения баз.
В результате, поиск актуальной, полной и точной информации о представленных в базах данных сущностях становится нетривиальной задачей, представляющей большой практический и исследовательский интерес по крайней мере последние 50 лет.

В ходе доклада я более подробно расскажу о различных вариантах постановки задачи дедупликации, общепринятой последовательности шагов для её решения и об одном из наиболее важных из них — сопоставлении сущностей. Кроме того, я расскажу о результатах выполненного летом проекта посвященного решению задачи сопоставления сущностей с помощью методов машинного обучения.

Докладчик: Ярослав Недумов
Слайды (предварительные):EntityMatching.pdf

Аспектно-ориентированный анализ эмоциональной окраски: приложения и методы (03.11.2015)

В настоящее время широкое распространение получили веб-сайты, предоставляющие пользователям возможность оставить отзыв о товаре / услуге. Нередко предоставляется и возможность оценить разные аспекты товара / услуги (например, разнообразие блюд в меню ресторана) по некоторой шкале.

В связи с этим представляет интерес задача аспектно-ориентированного анализа эмоциональной окраски. В данной задаче автоматическая система, анализируя текст отзыва, обязана предоставить информацию о том, в каких его частях, какие аспекты и как оцениваются.

В данном докладе будут рассмотрены приложения данной задачи, а также методы, предложенные участниками двух сессий тестирования систем аспектно-ориентированного анализа эмоциональной окраски: SemEval-2015 (язык: английский; предметные области: рестораны, ноутбуки) и SentiRuEval-2015 (язык: русский; предметные области: рестораны, автомобили).

Докладчик: Иван Андрианов

Слайды: pdf

Методы автоматического исправления орфографических ошибок (27.10.2015)

Задача автоматического исправления ошибок в текстах на естественных языках возникла уже более полувека назад и остаётся актуальной и сейчас. В ходе доклада будет произведён обзор существующих решений задач выявления и исправления орфографических ошибок в текстах. Также некоторые методы будут рассмотрены применительно к русскому языку. Будет произведён анализ качества работы этих методов и предложены варианты их улучшения.

Докладчик: Кириллов Алексей

Список использованной литературы:

  1. Karen Kukich. «Techniques for Automatically Correcting Words in Text». (December 1992).
  2. Priscila A. Gimenes, Norton T. Roman и Ariadne M. B. R. Carvalho. «Spelling Error Patterns in Brazilian Portuguese.» (March 2015)
  3. Noura Farra et all. «Generalized Character-Level Spelling Error Correction.» (2014)
  4. Bo Han и Timothy Baldwin. «Lexical Normalisation of Short Text Messages: Makn Sens a #twitter.» (2011)
  5. Max Kaufmann и Jugal Kalita. «Syntactic Normalization of Twitter Messages.» (2011)
  6. Bidyut Baran Chaudhuri. «Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text». (2001)
  7. Kristina Toutanova и Robert C. Moore. «Pronunciation Modeling for Improved Spelling Correction.» (2002)

Краудсорсинг для поиска информации (20.10.2015)

Многие информационные запросы имеют огромный диапазон поиска. Например, определить место, где сделана фотография или найти объект в городе. Такие задачи не поддаются решению с помощью методов машинного обучения, и ширина диапазона поиска не позволяет найти ответ организациям с ограниченным количеством сотрудников. Эти задачи можно решить при помощи краудсорсинга, когда о поиске узнает достаточное количество людей, которые распространяют запрос через соцсети.
В докладе будут представлены несколько примеров использования краудсорсинга:

проверка достоверности информации
рекрутинг по рекомендациям
поиск спрятанных объектов

В доклад также войдет анализ механизмов мотивации участников краудсорсинга с точки зрения теории игр.

Докладчик: Виктор Народицкий. (co-founder of Veri.ly, UK)

Слайды: pdf

Видео: https://www.youtube.com/watch?v=YF-eElCgkxY

Распределение студентов (2015-2016) по научным руководителям

3 курс ВМК и ВШЭ и часть 4 курса МФТИ, обратите внимание: обновлена страница со списком студентов спецсеминара.

Напишите своим научным руководителям, чтобы узнать, что вам нужно сделать, чтобы начать работать над курсовыми/дипломами.

Оценка влиятельности пользователей социальных сетей: методы и приложения (13.10.15)

В настоящее время при исследовании социальных сетей и решении прикладных задач, связанных с вирусным маркетингом, рекомендацией товаров и услуг или социальным поиском, возникает проблема оценки влиятельности пользователей в социальной сети. Доклад будет посвящён обзору существующих решений в этой области, методов оценки качества определения влиятельности пользователей в социальных сетях, а также различных приложений, тесно связанных с влиятельностью.

Докладчик: Кирилл Чихрадзе