Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Доклад является продолжением осеннего доклада про задачу сопоставления сущностей.

В этой части будет кратко рассказано об активном обучении (active learning) вообще и о его применении к задаче сопоставления сущностей.

Активное обучение – подобласть исследований в рамках машинного обучения, объединяющая методы активного выбора точек для добавления в обучающий набор. Из-за высокой зависимости задачи сопоставления сущностей от конкретной предметной области создание переиспользуемых обучающих наборов практически невозможно. По этой причине применение методов активного обучения выглядит перспективным и должно позволить применять для решения задачи сопоставления сущностей автоматические классификаторы.

Отдельная проблема при использовании методов активного обучения – это качество ответов эксперта. Так как общий объем обучающей выборки сравнительно небольшой, а входящие в нее элементы максимально важны для построения качественного классификатора, то возможные ошибки при их разметке могут пагубно отразиться на качестве итогового классификатора.

В ходе выполненного проекта мы изучили несколько существующих методов активного обучения, разработали свой, а также исследовали его зависимость от ошибок в ответах эксперта.

Докладчик: Ярослав Недумов

На просеминаре для студентов ВМК МГУ в пятницу 8 апреля будет рассказано про некоторые направления работ в отделе Информационных систем ИСП РАН.

Место ВМК МГУ, 508 ауд., начало в 16:20.

Презентация: pdf

За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах, связанным с внутренними угрозами. Требуются исследование и разработка новых способов решения следующих задач: идентификация пользователей, обнаружение нецелевого использования корпоративных ресурсов, раннее обнаружения попыток хищения информации. В контексте обозначенных задач потенциально важным является анализ особенности работы пользователей с текстовыми данными (документы, web-страницы, электронная почта) с целью выявления их аномального поведения, которое может свидетельствовать о том, что: пользователь не является тем, от имени кого он авторизовался (задача идентификации пользователей); пользователь тратит рабочее время на материалы, не относящиеся к его рабочей деятельности (задача обнаружения нецелевого использования корпоративных ресурсов); пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).

Целью диссертационной работы является исследование и разработка математического и программного обеспечения обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

Результаты, выносимые на защиту:

  1. Разработана модель представления поведенческой информации пользователя о его работе с текстовыми данными, на основе отображения содержимого электронных документов в тематическое пространство, формируемое с использованием неотрицательной матричной факторизации. Изменение значений весов тематик во времени формирует многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Анализ такого временного ряда позволяет определять факты аномального поведения пользователя для решения рассматриваемых задач компьютерной безопасности.
  2. Разработан метод прогнозирования тематической направленности пользователя, который служит для обнаружения интервалов времени несвойственной работы пользователя на основе значений отклонений тематической направленности от спрогнозированных данных.
  3. Разработан метод оценки принадлежности документа к тематикам пользователя, который служит для обнаружения фактов работы пользователя с несвойственными документами.
  4. На основе предложенного комплекса алгоритмов разработана архитектура и реализован экспериментальный прототип мультиагентной системы обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

 

Докладчик: Царёв Дмитрий Владимирович

Научные руководители:

д.ф.-м.н. Машечкин Игорь Валерьевич

к.ф.-м.н. Петровский Михаил Игоревич

Работа выполнена при финансовой поддержке Минобрнауки России (Соглашение № 14.604.21.0056 о предоставлении субсидии, Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056).

Начало семинара в 17.00

В докладе предлагается подход к моделированию процесса изменения содержания информационного пространства (ИП) социума с учетом силы информационного воздействия на его структурные элементы .

Современная система массовых коммуникации социума, рассматривается автором, как сложно-структурированная – социально-телекоммуникационная система (СТС), где социальные группы людей интегрированы с телекоммуникационными системами в многоканальной коммуникационной парадигме.  Автор выдвигает гипотезу, что информационное пространство современного общества, может быть описано динамикой содержания информационных сообщений, распространяемых с использованием средств массовой коммуникации.

Задача, по определению минимальных структурных элементов содержания информационного сообщения, единиц их измерения и оценки в данных единицах количественных и качественных характеристик информационного пространства, решается  автором благодаря синтезу методов когнитивной лингвистики на базе n-gramm (Харрис,  Гензер, Чарняк), подходов культурной эволюции – меметики (Докинз, Броди, Блэкмор), вероятностной моделью языка (Налимов), теории информационного противоборства (Расторгуев) и теории системно-когнитивного анализа (Луценко) .

В частности, автор, в отличии от лингвистических единиц сем/семема, определяет – мем, как единицу пригодную для фиксации наследственности смыслового содержания ИП СТС. Этот подход обусловлен частотой изменений содержания сообщении – она много выше чем частота появления семем (от нескольких дней). Использование мемов, позволяет зафиксировать более кратковременные изменения (от 1 часа) в содержании сообщений. Дополнительно, автор обосновывает, границы мема – как единицу больше 2-ух лексем, но меньше мемплекса – 2-ух и более мемов, передаваемых совместно.
В тоже время, хорошо зарекомендовавший на практике математический аппарат n-gramm (в компьютерных системах обработки сообщении на естественном языке), используется автором для трактовки мема как единицы наследственности содержания ИП СТС, находящейся в интервале между  биграммой и триграммой, а составной элемент из мемов – мемплекс – как единицу модели знаний. Данный подход, позволяет использовать математический аппарат n-gramm для оценки вероятности существования мема в информационном пространстве, а также определения законов эволюции моделей знаний. Новизна подхода автора заключается и в рассмотрении содержания ИП СТС, как эволюционирующей во времени системы семантических связей мемов.

В качестве направления для дальнейших исследовании, автор предлагает подходы: а) к  оценке силы информационного воздействия на единичные элементы ИП СТС, определяемую через вероятность нахождения (появление или гибель) мема в информационном пространстве; б) к прогнозированию содержания информационного пространства, с учетом уровня системности/эмерджетности моделей знаний (мемплексов).

Кроме теоретического материала, автором представлены результаты анализа информационного пространства русскоязычного сегмента ИП СТС (3 000 публикации за июль–август 2014 года), полученные с использованием предлагаемого им подхода. Результат анализа содержит расчеты вероятностей, агрессивности и силы воздействия для ТОП 30 из 600 выявленных мемов в русскоязычном сегменте ИП СТС.

Структура доклада

  1. Введение. Роль информационного пространства в жизнедеятельности социума;
  2. Определение понятийного аппарата: социально-телекоммуникационная система, план содержания и план выражения, цифровое информационное пространство социума;
  3. Эволюционная модель наследственности содержания информационных сообщении;
    • Постановка задачи
    • Лингвистика, семы и лексемы
    • Меметика, мемы и мемплексы
    • Математические модели в корпусной и когнитивной лингвистике;
    • Синтез аппарата меметики и мат. методов лингвистики;
    • Определение силы информационного воздействия на мемы и мемплекы
    • Тестирование модели на реальных данных
    • Выводы.

Докладчик: Артёмов Артём Анатольевич

Презентация: pdf

Время начала семинара 17.00.

В настоящее время в связи с увеличением количества пользовательского контента на онлайн-ресурсах (блогах, форумах, сайтах, социальных сетях, сервисах электронной коммерции) анализ мнений (англ. opinion mining) стал полезным инструментом компаний для извлечения требуемой информации из web-ресурсов. В последние десятилетия на рынке потребительских товаров наблюдается резкая динамика увеличения количества технически сложных товаров. Это связано, прежде всего, с развитием технологических инноваций, что приводит к постоянному увеличению конкретных видов компьютерных продуктов, и с концепцией соединения разной функциональности в едином устройстве. В связи с этим покупатели публикуют мнения, содержащие претензии по поводу удобства использования продукта (сервиса, товара) наряду с ненадлежащим техническим качеством.

В работе рассмотрены следующие задачи анализа мнений: классификация текстовых документов, извлечение высказываний относительно объектов мнений определенной предметной области, а так же резюмирование высказываний по тематическим категориям. Целью работы является разработка методов и программных средств извлечения высказываний, составных компонент и функций продуктов, связанных с трудностями в использовании продуктов и учитывающих особенности неструктурированных текстов пользователей в коллекции отзывов предметной области. Научную новизну составляют предложенные методы извлечения высказываний в рассматриваемых задачах анализа мнений пользователей различных предметных областей, основанные на алгоритмах машинного обучения без учителя, словарях и использовании структурной информации лингвистического тезауруса. Улучшение качества разработанных методов по сравнению с существующими методами подтверждено экспериментально с помощью стандартных метрик качества систем анализа текстов на естественном языке. Предложенные методы могут быть использованы при решении прикладных задач анализа мнений: классификации текстовых документов, извлечения информации, кластеризации информации на основе тематических моделей и т.п.

Докладчик: Тутубалина Елена Викторовна
Научный руководитель: д.ф.-м.н., проф., Соловьев Валерий Дмитриевич”

Презентация: pdf

Доклад посвящен проблеме автоматизации извлечения структурированных данных из веб-страниц. Сегодня Веб хранит колоссальное количество как текстовой, так и медиа-информации и является вместе с тем крупнейшей площадкой для общения людей и обмена мнениями между ними. Эти данные можно использовать для анализа отношения пользователей Веба к различного рода событиям, товарам и услугам, предоставления сервисов агрегации новостей, сравнения цен в интернет-магазинах, рекомендации музыки и фильмов и т.д. Автоматическое извлечение данных, однако, затрудняется нерегулярной структурой HTML-разметки веб-страниц и сложной динамической организацией современных веб-приложений. В докладе я постараюсь рассмотреть основные вопросы, возникающие при решении данной задачи, а также методы их решения на примере классических систем.

Докладчик: Максим Варламов

Литература:

  1. Ferrara E. et al. Web data extraction, applications and techniques: A survey //Knowledge-based systems. – 2014. – Т. 70. – С. 301-323.
  2. Sleiman H. A., Corchuelo R. A survey on region extractors from web documents //Knowledge and Data Engineering, IEEE Transactions on. – 2013. – Т. 25. – №. 9. – С. 1960-1981.
  3. Chang C. H. et al. A survey of web information extraction systems //Knowledge and Data Engineering, IEEE Transactions on. – 2006. – Т. 18. – №. 10. – С. 1411-1428.

В докладе будут рассмотрены рекуррентные нейронные сети – набирающие популярность модели для обработки последовательностей. Эти модели показывают state-of-the-art результаты во многих задачах анализа текстов, включая анализ тональности, вопросно-ответные системы и машинный перевод. Будут рассмотрены популярные архитектуры Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU) и примеры решения некоторых задач на основе этих моделей при помощи библиотеки глубокого обучения Keras. В частности, будет продемонстрировано решение задачи анализа тональности твитов на русском языке, победившее на соревновании SentiRuEval-2016 по используемому критерию качества.

Докладчик: Константин Архипенко

Презентация: pdf

Доклад посвящён проблеме автоматического анализа тональности текста. Приведена постановка и основные этапы решения задачи аспектно-эмоционального анализа. Рассмотрен алгоритм извлечения аспектных терминов и алгоритм определения их тональности, а также метод аспектно-эмоционального анализа. Приведена структура программной системы и результаты экспериментов на нескольких текстовых корпусах.

Докладчик: Павел Блинов

В современном мире создается и поддерживается большое количество баз данных, содержащих информацию обо всем на свете. Магазины ведут базы клиентов, поставщиков, товаров. Больницы хранят информацию о пациентах. Библиотеки хранят каталоги публикаций.

Совершенно неудивительно, что в результате возникает избыточность. Причин у нее несколько: избыточность внутри одной базы может возникать из-за недостаточно формального формата записи данных или из-за банальных ошибок при первичном вводе. Очевидная причина избыточности между разными базами – отсутствие централизации, причем даже если составители двух разных баз будут знать друг о друге, унификация может быть затруднена из-за разных регламентов заполнения баз.
В результате, поиск актуальной, полной и точной информации о представленных в базах данных сущностях становится нетривиальной задачей, представляющей большой практический и исследовательский интерес по крайней мере последние 50 лет.

В ходе доклада я более подробно расскажу о различных вариантах постановки задачи дедупликации, общепринятой последовательности шагов для её решения и об одном из наиболее важных из них – сопоставлении сущностей. Кроме того, я расскажу о результатах выполненного летом проекта посвященного решению задачи сопоставления сущностей с помощью методов машинного обучения.

Докладчик: Ярослав Недумов
Слайды (предварительные):EntityMatching.pdf

В настоящее время широкое распространение получили веб-сайты, предоставляющие пользователям возможность оставить отзыв о товаре / услуге. Нередко предоставляется и возможность оценить разные аспекты товара / услуги (например, разнообразие блюд в меню ресторана) по некоторой шкале.

В связи с этим представляет интерес задача аспектно-ориентированного анализа эмоциональной окраски. В данной задаче автоматическая система, анализируя текст отзыва, обязана предоставить информацию о том, в каких его частях, какие аспекты и как оцениваются.

В данном докладе будут рассмотрены приложения данной задачи, а также методы, предложенные участниками двух сессий тестирования систем аспектно-ориентированного анализа эмоциональной окраски: SemEval-2015 (язык: английский; предметные области: рестораны, ноутбуки) и SentiRuEval-2015 (язык: русский; предметные области: рестораны, автомобили).

Докладчик: Иван Андрианов

Слайды: pdf