Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts published by admin

Время начала семинара 17.00.

В настоящее время в связи с увеличением количества пользовательского контента на онлайн-ресурсах (блогах, форумах, сайтах, социальных сетях, сервисах электронной коммерции) анализ мнений (англ. opinion mining) стал полезным инструментом компаний для извлечения требуемой информации из web-ресурсов. В последние десятилетия на рынке потребительских товаров наблюдается резкая динамика увеличения количества технически сложных товаров. Это связано, прежде всего, с развитием технологических инноваций, что приводит к постоянному увеличению конкретных видов компьютерных продуктов, и с концепцией соединения разной функциональности в едином устройстве. В связи с этим покупатели публикуют мнения, содержащие претензии по поводу удобства использования продукта (сервиса, товара) наряду с ненадлежащим техническим качеством.

В работе рассмотрены следующие задачи анализа мнений: классификация текстовых документов, извлечение высказываний относительно объектов мнений определенной предметной области, а так же резюмирование высказываний по тематическим категориям. Целью работы является разработка методов и программных средств извлечения высказываний, составных компонент и функций продуктов, связанных с трудностями в использовании продуктов и учитывающих особенности неструктурированных текстов пользователей в коллекции отзывов предметной области. Научную новизну составляют предложенные методы извлечения высказываний в рассматриваемых задачах анализа мнений пользователей различных предметных областей, основанные на алгоритмах машинного обучения без учителя, словарях и использовании структурной информации лингвистического тезауруса. Улучшение качества разработанных методов по сравнению с существующими методами подтверждено экспериментально с помощью стандартных метрик качества систем анализа текстов на естественном языке. Предложенные методы могут быть использованы при решении прикладных задач анализа мнений: классификации текстовых документов, извлечения информации, кластеризации информации на основе тематических моделей и т.п.

Докладчик: Тутубалина Елена Викторовна
Научный руководитель: д.ф.-м.н., проф., Соловьев Валерий Дмитриевич”

Презентация: pdf

Доклад посвящен проблеме автоматизации извлечения структурированных данных из веб-страниц. Сегодня Веб хранит колоссальное количество как текстовой, так и медиа-информации и является вместе с тем крупнейшей площадкой для общения людей и обмена мнениями между ними. Эти данные можно использовать для анализа отношения пользователей Веба к различного рода событиям, товарам и услугам, предоставления сервисов агрегации новостей, сравнения цен в интернет-магазинах, рекомендации музыки и фильмов и т.д. Автоматическое извлечение данных, однако, затрудняется нерегулярной структурой HTML-разметки веб-страниц и сложной динамической организацией современных веб-приложений. В докладе я постараюсь рассмотреть основные вопросы, возникающие при решении данной задачи, а также методы их решения на примере классических систем.

Докладчик: Максим Варламов

Литература:

  1. Ferrara E. et al. Web data extraction, applications and techniques: A survey //Knowledge-based systems. – 2014. – Т. 70. – С. 301-323.
  2. Sleiman H. A., Corchuelo R. A survey on region extractors from web documents //Knowledge and Data Engineering, IEEE Transactions on. – 2013. – Т. 25. – №. 9. – С. 1960-1981.
  3. Chang C. H. et al. A survey of web information extraction systems //Knowledge and Data Engineering, IEEE Transactions on. – 2006. – Т. 18. – №. 10. – С. 1411-1428.

В докладе будут рассмотрены рекуррентные нейронные сети – набирающие популярность модели для обработки последовательностей. Эти модели показывают state-of-the-art результаты во многих задачах анализа текстов, включая анализ тональности, вопросно-ответные системы и машинный перевод. Будут рассмотрены популярные архитектуры Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU) и примеры решения некоторых задач на основе этих моделей при помощи библиотеки глубокого обучения Keras. В частности, будет продемонстрировано решение задачи анализа тональности твитов на русском языке, победившее на соревновании SentiRuEval-2016 по используемому критерию качества.

Докладчик: Константин Архипенко

Презентация: pdf

Доклад посвящён проблеме автоматического анализа тональности текста. Приведена постановка и основные этапы решения задачи аспектно-эмоционального анализа. Рассмотрен алгоритм извлечения аспектных терминов и алгоритм определения их тональности, а также метод аспектно-эмоционального анализа. Приведена структура программной системы и результаты экспериментов на нескольких текстовых корпусах.

Докладчик: Павел Блинов

В современном мире создается и поддерживается большое количество баз данных, содержащих информацию обо всем на свете. Магазины ведут базы клиентов, поставщиков, товаров. Больницы хранят информацию о пациентах. Библиотеки хранят каталоги публикаций.

Совершенно неудивительно, что в результате возникает избыточность. Причин у нее несколько: избыточность внутри одной базы может возникать из-за недостаточно формального формата записи данных или из-за банальных ошибок при первичном вводе. Очевидная причина избыточности между разными базами – отсутствие централизации, причем даже если составители двух разных баз будут знать друг о друге, унификация может быть затруднена из-за разных регламентов заполнения баз.
В результате, поиск актуальной, полной и точной информации о представленных в базах данных сущностях становится нетривиальной задачей, представляющей большой практический и исследовательский интерес по крайней мере последние 50 лет.

В ходе доклада я более подробно расскажу о различных вариантах постановки задачи дедупликации, общепринятой последовательности шагов для её решения и об одном из наиболее важных из них – сопоставлении сущностей. Кроме того, я расскажу о результатах выполненного летом проекта посвященного решению задачи сопоставления сущностей с помощью методов машинного обучения.

Докладчик: Ярослав Недумов
Слайды (предварительные):EntityMatching.pdf

В настоящее время широкое распространение получили веб-сайты, предоставляющие пользователям возможность оставить отзыв о товаре / услуге. Нередко предоставляется и возможность оценить разные аспекты товара / услуги (например, разнообразие блюд в меню ресторана) по некоторой шкале.

В связи с этим представляет интерес задача аспектно-ориентированного анализа эмоциональной окраски. В данной задаче автоматическая система, анализируя текст отзыва, обязана предоставить информацию о том, в каких его частях, какие аспекты и как оцениваются.

В данном докладе будут рассмотрены приложения данной задачи, а также методы, предложенные участниками двух сессий тестирования систем аспектно-ориентированного анализа эмоциональной окраски: SemEval-2015 (язык: английский; предметные области: рестораны, ноутбуки) и SentiRuEval-2015 (язык: русский; предметные области: рестораны, автомобили).

Докладчик: Иван Андрианов

Слайды: pdf

Задача автоматического исправления ошибок в текстах на естественных языках возникла уже более полувека назад и остаётся актуальной и сейчас. В ходе доклада будет произведён обзор существующих решений задач выявления и исправления орфографических ошибок в текстах. Также некоторые методы будут рассмотрены применительно к русскому языку. Будет произведён анализ качества работы этих методов и предложены варианты их улучшения.

Докладчик: Кириллов Алексей

Список использованной литературы:

  1. Karen Kukich. “Techniques for Automatically Correcting Words in Text”. (December 1992).
  2. Priscila A. Gimenes, Norton T. Roman и Ariadne M. B. R. Carvalho. “Spelling Error Patterns in Brazilian Portuguese.” (March 2015)
  3. Noura Farra et all. “Generalized Character-Level Spelling Error Correction.” (2014)
  4. Bo Han и Timothy Baldwin. “Lexical Normalisation of Short Text Messages: Makn Sens a #twitter.” (2011)
  5. Max Kaufmann и Jugal Kalita. “Syntactic Normalization of Twitter Messages.” (2011)
  6. Bidyut Baran Chaudhuri. “Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text”. (2001)
  7. Kristina Toutanova и Robert C. Moore. “Pronunciation Modeling for Improved Spelling Correction.” (2002)

Многие информационные запросы имеют огромный диапазон поиска. Например, определить место, где сделана фотография или найти объект в городе. Такие задачи не поддаются решению с помощью методов машинного обучения, и ширина диапазона поиска не позволяет найти ответ организациям с ограниченным количеством сотрудников. Эти задачи можно решить при помощи краудсорсинга, когда о поиске узнает достаточное количество людей, которые распространяют запрос через соцсети.
В докладе будут представлены несколько примеров использования краудсорсинга:

проверка достоверности информации
рекрутинг по рекомендациям
поиск спрятанных объектов

В доклад также войдет анализ механизмов мотивации участников краудсорсинга с точки зрения теории игр.

Докладчик: Виктор Народицкий. (co-founder of Veri.ly, UK)

Слайды: pdf

Видео: https://www.youtube.com/watch?v=YF-eElCgkxY

3 курс ВМК и ВШЭ и часть 4 курса МФТИ, обратите внимание: обновлена страница со списком студентов спецсеминара.

Напишите своим научным руководителям, чтобы узнать, что вам нужно сделать, чтобы начать работать над курсовыми/дипломами.

В настоящее время при исследовании социальных сетей и решении прикладных задач, связанных с вирусным маркетингом, рекомендацией товаров и услуг или социальным поиском, возникает проблема оценки влиятельности пользователей в социальной сети. Доклад будет посвящён обзору существующих решений в этой области, методов оценки качества определения влиятельности пользователей в социальных сетях, а также различных приложений, тесно связанных с влиятельностью.

Докладчик: Кирилл Чихрадзе