На просеминаре для студентов ВМК МГУ в пятницу 8 апреля будет рассказано про некоторые направления работ в отделе Информационных систем ИСП РАН.
Место ВМК МГУ, 508 ауд., начало в 16:20.
Презентация: pdf
На просеминаре для студентов ВМК МГУ в пятницу 8 апреля будет рассказано про некоторые направления работ в отделе Информационных систем ИСП РАН.
Место ВМК МГУ, 508 ауд., начало в 16:20.
Презентация: pdf
За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах, связанным с внутренними угрозами. Требуются исследование и разработка новых способов решения следующих задач: идентификация пользователей, обнаружение нецелевого использования корпоративных ресурсов, раннее обнаружения попыток хищения информации. В контексте обозначенных задач потенциально важным является анализ особенности работы пользователей с текстовыми данными (документы, web-страницы, электронная почта) с целью выявления их аномального поведения, которое может свидетельствовать о том, что: пользователь не является тем, от имени кого он авторизовался (задача идентификации пользователей); пользователь тратит рабочее время на материалы, не относящиеся к его рабочей деятельности (задача обнаружения нецелевого использования корпоративных ресурсов); пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).
Целью диссертационной работы является исследование и разработка математического и программного обеспечения обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.
Результаты, выносимые на защиту:
Докладчик: Царёв Дмитрий Владимирович
Научные руководители:
д.ф.-м.н. Машечкин Игорь Валерьевич
к.ф.-м.н. Петровский Михаил Игоревич
Работа выполнена при финансовой поддержке Минобрнауки России (Соглашение № 14.604.21.0056 о предоставлении субсидии, Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056).
Начало семинара в 17.00
В докладе предлагается подход к моделированию процесса изменения содержания информационного пространства (ИП) социума с учетом силы информационного воздействия на его структурные элементы .
Современная система массовых коммуникации социума, рассматривается автором, как сложно-структурированная – социально-телекоммуникационная система (СТС), где социальные группы людей интегрированы с телекоммуникационными системами в многоканальной коммуникационной парадигме. Автор выдвигает гипотезу, что информационное пространство современного общества, может быть описано динамикой содержания информационных сообщений, распространяемых с использованием средств массовой коммуникации.
Задача, по определению минимальных структурных элементов содержания информационного сообщения, единиц их измерения и оценки в данных единицах количественных и качественных характеристик информационного пространства, решается автором благодаря синтезу методов когнитивной лингвистики на базе n-gramm (Харрис, Гензер, Чарняк), подходов культурной эволюции – меметики (Докинз, Броди, Блэкмор), вероятностной моделью языка (Налимов), теории информационного противоборства (Расторгуев) и теории системно-когнитивного анализа (Луценко) .
В частности, автор, в отличии от лингвистических единиц сем/семема, определяет – мем, как единицу пригодную для фиксации наследственности смыслового содержания ИП СТС. Этот подход обусловлен частотой изменений содержания сообщении — она много выше чем частота появления семем (от нескольких дней). Использование мемов, позволяет зафиксировать более кратковременные изменения (от 1 часа) в содержании сообщений. Дополнительно, автор обосновывает, границы мема – как единицу больше 2-ух лексем, но меньше мемплекса – 2-ух и более мемов, передаваемых совместно.
В тоже время, хорошо зарекомендовавший на практике математический аппарат n-gramm (в компьютерных системах обработки сообщении на естественном языке), используется автором для трактовки мема как единицы наследственности содержания ИП СТС, находящейся в интервале между биграммой и триграммой, а составной элемент из мемов — мемплекс – как единицу модели знаний. Данный подход, позволяет использовать математический аппарат n-gramm для оценки вероятности существования мема в информационном пространстве, а также определения законов эволюции моделей знаний. Новизна подхода автора заключается и в рассмотрении содержания ИП СТС, как эволюционирующей во времени системы семантических связей мемов.
В качестве направления для дальнейших исследовании, автор предлагает подходы: а) к оценке силы информационного воздействия на единичные элементы ИП СТС, определяемую через вероятность нахождения (появление или гибель) мема в информационном пространстве; б) к прогнозированию содержания информационного пространства, с учетом уровня системности/эмерджетности моделей знаний (мемплексов).
Кроме теоретического материала, автором представлены результаты анализа информационного пространства русскоязычного сегмента ИП СТС (3 000 публикации за июль–август 2014 года), полученные с использованием предлагаемого им подхода. Результат анализа содержит расчеты вероятностей, агрессивности и силы воздействия для ТОП 30 из 600 выявленных мемов в русскоязычном сегменте ИП СТС.
Структура доклада
Докладчик: Артёмов Артём Анатольевич
Презентация: pdf
Время начала семинара 17.00.
В настоящее время в связи с увеличением количества пользовательского контента на онлайн-ресурсах (блогах, форумах, сайтах, социальных сетях, сервисах электронной коммерции) анализ мнений (англ. opinion mining) стал полезным инструментом компаний для извлечения требуемой информации из web-ресурсов. В последние десятилетия на рынке потребительских товаров наблюдается резкая динамика увеличения количества технически сложных товаров. Это связано, прежде всего, с развитием технологических инноваций, что приводит к постоянному увеличению конкретных видов компьютерных продуктов, и с концепцией соединения разной функциональности в едином устройстве. В связи с этим покупатели публикуют мнения, содержащие претензии по поводу удобства использования продукта (сервиса, товара) наряду с ненадлежащим техническим качеством.
В работе рассмотрены следующие задачи анализа мнений: классификация текстовых документов, извлечение высказываний относительно объектов мнений определенной предметной области, а так же резюмирование высказываний по тематическим категориям. Целью работы является разработка методов и программных средств извлечения высказываний, составных компонент и функций продуктов, связанных с трудностями в использовании продуктов и учитывающих особенности неструктурированных текстов пользователей в коллекции отзывов предметной области. Научную новизну составляют предложенные методы извлечения высказываний в рассматриваемых задачах анализа мнений пользователей различных предметных областей, основанные на алгоритмах машинного обучения без учителя, словарях и использовании структурной информации лингвистического тезауруса. Улучшение качества разработанных методов по сравнению с существующими методами подтверждено экспериментально с помощью стандартных метрик качества систем анализа текстов на естественном языке. Предложенные методы могут быть использованы при решении прикладных задач анализа мнений: классификации текстовых документов, извлечения информации, кластеризации информации на основе тематических моделей и т.п.
Докладчик: Тутубалина Елена Викторовна
Научный руководитель: д.ф.-м.н., проф., Соловьев Валерий Дмитриевич»
Презентация: pdf
Доклад посвящен проблеме автоматизации извлечения структурированных данных из веб-страниц. Сегодня Веб хранит колоссальное количество как текстовой, так и медиа-информации и является вместе с тем крупнейшей площадкой для общения людей и обмена мнениями между ними. Эти данные можно использовать для анализа отношения пользователей Веба к различного рода событиям, товарам и услугам, предоставления сервисов агрегации новостей, сравнения цен в интернет-магазинах, рекомендации музыки и фильмов и т.д. Автоматическое извлечение данных, однако, затрудняется нерегулярной структурой HTML-разметки веб-страниц и сложной динамической организацией современных веб-приложений. В докладе я постараюсь рассмотреть основные вопросы, возникающие при решении данной задачи, а также методы их решения на примере классических систем.
Докладчик: Максим Варламов
Литература:
В докладе будут рассмотрены рекуррентные нейронные сети — набирающие популярность модели для обработки последовательностей. Эти модели показывают state-of-the-art результаты во многих задачах анализа текстов, включая анализ тональности, вопросно-ответные системы и машинный перевод. Будут рассмотрены популярные архитектуры Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU) и примеры решения некоторых задач на основе этих моделей при помощи библиотеки глубокого обучения Keras. В частности, будет продемонстрировано решение задачи анализа тональности твитов на русском языке, победившее на соревновании SentiRuEval-2016 по используемому критерию качества.
Докладчик: Константин Архипенко
Презентация: pdf
Доклад посвящён проблеме автоматического анализа тональности текста. Приведена постановка и основные этапы решения задачи аспектно-эмоционального анализа. Рассмотрен алгоритм извлечения аспектных терминов и алгоритм определения их тональности, а также метод аспектно-эмоционального анализа. Приведена структура программной системы и результаты экспериментов на нескольких текстовых корпусах.
Докладчик: Павел Блинов
В современном мире создается и поддерживается большое количество баз данных, содержащих информацию обо всем на свете. Магазины ведут базы клиентов, поставщиков, товаров. Больницы хранят информацию о пациентах. Библиотеки хранят каталоги публикаций.
Совершенно неудивительно, что в результате возникает избыточность. Причин у нее несколько: избыточность внутри одной базы может возникать из-за недостаточно формального формата записи данных или из-за банальных ошибок при первичном вводе. Очевидная причина избыточности между разными базами — отсутствие централизации, причем даже если составители двух разных баз будут знать друг о друге, унификация может быть затруднена из-за разных регламентов заполнения баз.
В результате, поиск актуальной, полной и точной информации о представленных в базах данных сущностях становится нетривиальной задачей, представляющей большой практический и исследовательский интерес по крайней мере последние 50 лет.
В ходе доклада я более подробно расскажу о различных вариантах постановки задачи дедупликации, общепринятой последовательности шагов для её решения и об одном из наиболее важных из них — сопоставлении сущностей. Кроме того, я расскажу о результатах выполненного летом проекта посвященного решению задачи сопоставления сущностей с помощью методов машинного обучения.
Докладчик: Ярослав Недумов
Слайды (предварительные):EntityMatching.pdf
В настоящее время широкое распространение получили веб-сайты, предоставляющие пользователям возможность оставить отзыв о товаре / услуге. Нередко предоставляется и возможность оценить разные аспекты товара / услуги (например, разнообразие блюд в меню ресторана) по некоторой шкале.
В связи с этим представляет интерес задача аспектно-ориентированного анализа эмоциональной окраски. В данной задаче автоматическая система, анализируя текст отзыва, обязана предоставить информацию о том, в каких его частях, какие аспекты и как оцениваются.
В данном докладе будут рассмотрены приложения данной задачи, а также методы, предложенные участниками двух сессий тестирования систем аспектно-ориентированного анализа эмоциональной окраски: SemEval-2015 (язык: английский; предметные области: рестораны, ноутбуки) и SentiRuEval-2015 (язык: русский; предметные области: рестораны, автомобили).
Докладчик: Иван Андрианов
Слайды: pdf
Задача автоматического исправления ошибок в текстах на естественных языках возникла уже более полувека назад и остаётся актуальной и сейчас. В ходе доклада будет произведён обзор существующих решений задач выявления и исправления орфографических ошибок в текстах. Также некоторые методы будут рассмотрены применительно к русскому языку. Будет произведён анализ качества работы этих методов и предложены варианты их улучшения.
Докладчик: Кириллов Алексей
Список использованной литературы: