Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Задача выявления дубликатов это поиск разных версии одного и того же изображения, изображения которые не являются точными копиями на бинарном уровне, но могут быть визуально идентифицированы как одни и те же изображения повергшиеся различным трансформациям (масштабирование, смена точки съема…). Для выявления пар дубликатов был применен подход глубинного обучения. Для входной пары изображений вычисляются свойства (features) с помощью двух-башенной сверточной нейронной сети с разделяемыми весами. Вычисленные свойства передаются в метрическую сеть, где и проводится сравнение. Проведенные эксперименты показали применимость данного подхода к решению задачи поиска дубликатов изображений.

Докладчик: Манук Акопян

Сегодня на семинаре будет продемонстрирована альфа-версия системы поддержки проведения исследований ReCol/SciGraph.

Докладчик: Ярослав Недумов

  1. Берюхов Андрей, ВШЭ, 3 – Варламов, Разработка системы извлечения информации из веб-страниц по размеченным примерам
  2. Баранов Антон, ВШЭ, 3 – Чихрадзе, Анализ динамических свойств сообществ
  3. Егоров Николай, ВШЭ, 3 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет
  4. Репина Анастасия, ВШЭ, 3 – Андрианов, Построение множества (иерархии) категорий аспектов предметной области по отзывам
  5. Урнышев Евгений, ВШЭ, 3 – Майоров, Автоматический морфологический анализ текстов на русском/английском языках
  6. Аксенова Елена, ВМК, 3 – Борисенко, Исследование и разработка масштабируемого и отказоустойчивого сервиса идентификации для облачной среды
  7. Жаботинский Андрей, ВМК, 3 – Козлов, Реализация распределённого алгоритма представления вершин графа в векторном виде
  8. Портной Александр, ВМК, 3 – Гомзин, Рекомендация получателей групповых сообщений социальной сети Вконтакте
  9. Строев Вячеслав, ВМК, 3 – Турдаков, Синтаксический анализатор текста на основе деревьев зависимостей с использованием нейронных сетей
  10. Илларионов Андрей, ВМК, 5 – Варламов, Автоматическое извлечение метаданных научных статей с сайтов электронных библиотек
  11. Бабичев Антон, ВМК, 5 – Козлов, Извлечение информации о пользователе социальной сети на основе структуры социального графа
  12. Иконникова Мария, ВМК, 4 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет

UPDATE:

  1. Михаил Аксёнов, ВМК, 3 – Коршунов, Определение пользовательских ролей в онлайн-сообществах
  2. Айта Манджиев, ВМК, 3 – Недумов, Автоматическая оценка последовательности изложения научных текстов

Семинар 04.10.2016 отменен по просьбе докладчика. Следующий семинар состоится во вторник 11.10.2016.

На семинаре 27 сентября 2016 состоится сбор по поводу распределения тем курсовых и знакомства студентов с их руководителями (если еще не знакомы).

Начало в 19:00 в 110 комнате (в ИСП РАН).

UPDATE: Каждый студент спецсеминара должен прислать минимум 3 темы в порядке убывания приоритета на адрес yaroslav.nedumov@ispras.ru

UPDATE2: И не забывайте написать как вас зовут, с какого вы курса и из какого ВУЗа.

Доклад является продолжением осеннего доклада про задачу сопоставления сущностей.

В этой части будет кратко рассказано об активном обучении (active learning) вообще и о его применении к задаче сопоставления сущностей.

Активное обучение – подобласть исследований в рамках машинного обучения, объединяющая методы активного выбора точек для добавления в обучающий набор. Из-за высокой зависимости задачи сопоставления сущностей от конкретной предметной области создание переиспользуемых обучающих наборов практически невозможно. По этой причине применение методов активного обучения выглядит перспективным и должно позволить применять для решения задачи сопоставления сущностей автоматические классификаторы.

Отдельная проблема при использовании методов активного обучения – это качество ответов эксперта. Так как общий объем обучающей выборки сравнительно небольшой, а входящие в нее элементы максимально важны для построения качественного классификатора, то возможные ошибки при их разметке могут пагубно отразиться на качестве итогового классификатора.

В ходе выполненного проекта мы изучили несколько существующих методов активного обучения, разработали свой, а также исследовали его зависимость от ошибок в ответах эксперта.

Докладчик: Ярослав Недумов

На просеминаре для студентов ВМК МГУ в пятницу 8 апреля будет рассказано про некоторые направления работ в отделе Информационных систем ИСП РАН.

Место ВМК МГУ, 508 ауд., начало в 16:20.

Презентация: pdf

За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах, связанным с внутренними угрозами. Требуются исследование и разработка новых способов решения следующих задач: идентификация пользователей, обнаружение нецелевого использования корпоративных ресурсов, раннее обнаружения попыток хищения информации. В контексте обозначенных задач потенциально важным является анализ особенности работы пользователей с текстовыми данными (документы, web-страницы, электронная почта) с целью выявления их аномального поведения, которое может свидетельствовать о том, что: пользователь не является тем, от имени кого он авторизовался (задача идентификации пользователей); пользователь тратит рабочее время на материалы, не относящиеся к его рабочей деятельности (задача обнаружения нецелевого использования корпоративных ресурсов); пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).

Целью диссертационной работы является исследование и разработка математического и программного обеспечения обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

Результаты, выносимые на защиту:

  1. Разработана модель представления поведенческой информации пользователя о его работе с текстовыми данными, на основе отображения содержимого электронных документов в тематическое пространство, формируемое с использованием неотрицательной матричной факторизации. Изменение значений весов тематик во времени формирует многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Анализ такого временного ряда позволяет определять факты аномального поведения пользователя для решения рассматриваемых задач компьютерной безопасности.
  2. Разработан метод прогнозирования тематической направленности пользователя, который служит для обнаружения интервалов времени несвойственной работы пользователя на основе значений отклонений тематической направленности от спрогнозированных данных.
  3. Разработан метод оценки принадлежности документа к тематикам пользователя, который служит для обнаружения фактов работы пользователя с несвойственными документами.
  4. На основе предложенного комплекса алгоритмов разработана архитектура и реализован экспериментальный прототип мультиагентной системы обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

 

Докладчик: Царёв Дмитрий Владимирович

Научные руководители:

д.ф.-м.н. Машечкин Игорь Валерьевич

к.ф.-м.н. Петровский Михаил Игоревич

Работа выполнена при финансовой поддержке Минобрнауки России (Соглашение № 14.604.21.0056 о предоставлении субсидии, Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056).

Начало семинара в 17.00

В докладе предлагается подход к моделированию процесса изменения содержания информационного пространства (ИП) социума с учетом силы информационного воздействия на его структурные элементы .

Современная система массовых коммуникации социума, рассматривается автором, как сложно-структурированная – социально-телекоммуникационная система (СТС), где социальные группы людей интегрированы с телекоммуникационными системами в многоканальной коммуникационной парадигме.  Автор выдвигает гипотезу, что информационное пространство современного общества, может быть описано динамикой содержания информационных сообщений, распространяемых с использованием средств массовой коммуникации.

Задача, по определению минимальных структурных элементов содержания информационного сообщения, единиц их измерения и оценки в данных единицах количественных и качественных характеристик информационного пространства, решается  автором благодаря синтезу методов когнитивной лингвистики на базе n-gramm (Харрис,  Гензер, Чарняк), подходов культурной эволюции – меметики (Докинз, Броди, Блэкмор), вероятностной моделью языка (Налимов), теории информационного противоборства (Расторгуев) и теории системно-когнитивного анализа (Луценко) .

В частности, автор, в отличии от лингвистических единиц сем/семема, определяет – мем, как единицу пригодную для фиксации наследственности смыслового содержания ИП СТС. Этот подход обусловлен частотой изменений содержания сообщении – она много выше чем частота появления семем (от нескольких дней). Использование мемов, позволяет зафиксировать более кратковременные изменения (от 1 часа) в содержании сообщений. Дополнительно, автор обосновывает, границы мема – как единицу больше 2-ух лексем, но меньше мемплекса – 2-ух и более мемов, передаваемых совместно.
В тоже время, хорошо зарекомендовавший на практике математический аппарат n-gramm (в компьютерных системах обработки сообщении на естественном языке), используется автором для трактовки мема как единицы наследственности содержания ИП СТС, находящейся в интервале между  биграммой и триграммой, а составной элемент из мемов – мемплекс – как единицу модели знаний. Данный подход, позволяет использовать математический аппарат n-gramm для оценки вероятности существования мема в информационном пространстве, а также определения законов эволюции моделей знаний. Новизна подхода автора заключается и в рассмотрении содержания ИП СТС, как эволюционирующей во времени системы семантических связей мемов.

В качестве направления для дальнейших исследовании, автор предлагает подходы: а) к  оценке силы информационного воздействия на единичные элементы ИП СТС, определяемую через вероятность нахождения (появление или гибель) мема в информационном пространстве; б) к прогнозированию содержания информационного пространства, с учетом уровня системности/эмерджетности моделей знаний (мемплексов).

Кроме теоретического материала, автором представлены результаты анализа информационного пространства русскоязычного сегмента ИП СТС (3 000 публикации за июль–август 2014 года), полученные с использованием предлагаемого им подхода. Результат анализа содержит расчеты вероятностей, агрессивности и силы воздействия для ТОП 30 из 600 выявленных мемов в русскоязычном сегменте ИП СТС.

Структура доклада

  1. Введение. Роль информационного пространства в жизнедеятельности социума;
  2. Определение понятийного аппарата: социально-телекоммуникационная система, план содержания и план выражения, цифровое информационное пространство социума;
  3. Эволюционная модель наследственности содержания информационных сообщении;
    • Постановка задачи
    • Лингвистика, семы и лексемы
    • Меметика, мемы и мемплексы
    • Математические модели в корпусной и когнитивной лингвистике;
    • Синтез аппарата меметики и мат. методов лингвистики;
    • Определение силы информационного воздействия на мемы и мемплекы
    • Тестирование модели на реальных данных
    • Выводы.

Докладчик: Артёмов Артём Анатольевич

Презентация: pdf

Время начала семинара 17.00.

В настоящее время в связи с увеличением количества пользовательского контента на онлайн-ресурсах (блогах, форумах, сайтах, социальных сетях, сервисах электронной коммерции) анализ мнений (англ. opinion mining) стал полезным инструментом компаний для извлечения требуемой информации из web-ресурсов. В последние десятилетия на рынке потребительских товаров наблюдается резкая динамика увеличения количества технически сложных товаров. Это связано, прежде всего, с развитием технологических инноваций, что приводит к постоянному увеличению конкретных видов компьютерных продуктов, и с концепцией соединения разной функциональности в едином устройстве. В связи с этим покупатели публикуют мнения, содержащие претензии по поводу удобства использования продукта (сервиса, товара) наряду с ненадлежащим техническим качеством.

В работе рассмотрены следующие задачи анализа мнений: классификация текстовых документов, извлечение высказываний относительно объектов мнений определенной предметной области, а так же резюмирование высказываний по тематическим категориям. Целью работы является разработка методов и программных средств извлечения высказываний, составных компонент и функций продуктов, связанных с трудностями в использовании продуктов и учитывающих особенности неструктурированных текстов пользователей в коллекции отзывов предметной области. Научную новизну составляют предложенные методы извлечения высказываний в рассматриваемых задачах анализа мнений пользователей различных предметных областей, основанные на алгоритмах машинного обучения без учителя, словарях и использовании структурной информации лингвистического тезауруса. Улучшение качества разработанных методов по сравнению с существующими методами подтверждено экспериментально с помощью стандартных метрик качества систем анализа текстов на естественном языке. Предложенные методы могут быть использованы при решении прикладных задач анализа мнений: классификации текстовых документов, извлечения информации, кластеризации информации на основе тематических моделей и т.п.

Докладчик: Тутубалина Елена Викторовна
Научный руководитель: д.ф.-м.н., проф., Соловьев Валерий Дмитриевич”

Презентация: pdf