Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts published by admin

Автоматическое извлечение терминологии используется для решения многих задач, связанных с обработкой текстов предметной области.
Однако существующие методы, как правило, показывают точность и полноту недостаточные для применения на практике. Более того, до сих пор отсутствует надежное экспериментальное сравнение разработанных методов. Одна из причин заключается в сложности реализации этих методов.
В докладе будет рассказно об открытой реализации современных методов извлечения терминологии на языке Scala и проведенном экспериментальном сравнении.

Докладчик: Никита Астраханцев

В докладе планируется рассказать про решение конкурса по определению парафраза. Будут рассказаны типичные признаки для этой задачи и методы, позволяющие их эффективно использовать (в частности многослойный персептрон и “сиамские” нейронные сети).

Докладчик: Кирилл Скорняков

Внимание! Семинар состоится в четверг 27 октября. Начало в 18.00.

Задача выявления дубликатов это поиск разных версии одного и того же изображения, изображения которые не являются точными копиями на бинарном уровне, но могут быть визуально идентифицированы как одни и те же изображения повергшиеся различным трансформациям (масштабирование, смена точки съема…). Для выявления пар дубликатов был применен подход глубинного обучения. Для входной пары изображений вычисляются свойства (features) с помощью двух-башенной сверточной нейронной сети с разделяемыми весами. Вычисленные свойства передаются в метрическую сеть, где и проводится сравнение. Проведенные эксперименты показали применимость данного подхода к решению задачи поиска дубликатов изображений.

Докладчик: Манук Акопян

Сегодня на семинаре будет продемонстрирована альфа-версия системы поддержки проведения исследований ReCol/SciGraph.

Докладчик: Ярослав Недумов

  1. Берюхов Андрей, ВШЭ, 3 – Варламов, Разработка системы извлечения информации из веб-страниц по размеченным примерам
  2. Баранов Антон, ВШЭ, 3 – Чихрадзе, Анализ динамических свойств сообществ
  3. Егоров Николай, ВШЭ, 3 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет
  4. Репина Анастасия, ВШЭ, 3 – Андрианов, Построение множества (иерархии) категорий аспектов предметной области по отзывам
  5. Урнышев Евгений, ВШЭ, 3 – Майоров, Автоматический морфологический анализ текстов на русском/английском языках
  6. Аксенова Елена, ВМК, 3 – Борисенко, Исследование и разработка масштабируемого и отказоустойчивого сервиса идентификации для облачной среды
  7. Жаботинский Андрей, ВМК, 3 – Козлов, Реализация распределённого алгоритма представления вершин графа в векторном виде
  8. Портной Александр, ВМК, 3 – Гомзин, Рекомендация получателей групповых сообщений социальной сети Вконтакте
  9. Строев Вячеслав, ВМК, 3 – Турдаков, Синтаксический анализатор текста на основе деревьев зависимостей с использованием нейронных сетей
  10. Илларионов Андрей, ВМК, 5 – Варламов, Автоматическое извлечение метаданных научных статей с сайтов электронных библиотек
  11. Бабичев Антон, ВМК, 5 – Козлов, Извлечение информации о пользователе социальной сети на основе структуры социального графа
  12. Иконникова Мария, ВМК, 4 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет

UPDATE:

  1. Михаил Аксёнов, ВМК, 3 – Коршунов, Определение пользовательских ролей в онлайн-сообществах
  2. Айта Манджиев, ВМК, 3 – Недумов, Автоматическая оценка последовательности изложения научных текстов

Семинар 04.10.2016 отменен по просьбе докладчика. Следующий семинар состоится во вторник 11.10.2016.

На семинаре 27 сентября 2016 состоится сбор по поводу распределения тем курсовых и знакомства студентов с их руководителями (если еще не знакомы).

Начало в 19:00 в 110 комнате (в ИСП РАН).

UPDATE: Каждый студент спецсеминара должен прислать минимум 3 темы в порядке убывания приоритета на адрес yaroslav.nedumov@ispras.ru

UPDATE2: И не забывайте написать как вас зовут, с какого вы курса и из какого ВУЗа.

На просеминаре для студентов ВМК МГУ в пятницу 8 апреля будет рассказано про некоторые направления работ в отделе Информационных систем ИСП РАН.

Место ВМК МГУ, 508 ауд., начало в 16:20.

Презентация: pdf

За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах, связанным с внутренними угрозами. Требуются исследование и разработка новых способов решения следующих задач: идентификация пользователей, обнаружение нецелевого использования корпоративных ресурсов, раннее обнаружения попыток хищения информации. В контексте обозначенных задач потенциально важным является анализ особенности работы пользователей с текстовыми данными (документы, web-страницы, электронная почта) с целью выявления их аномального поведения, которое может свидетельствовать о том, что: пользователь не является тем, от имени кого он авторизовался (задача идентификации пользователей); пользователь тратит рабочее время на материалы, не относящиеся к его рабочей деятельности (задача обнаружения нецелевого использования корпоративных ресурсов); пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).

Целью диссертационной работы является исследование и разработка математического и программного обеспечения обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

Результаты, выносимые на защиту:

  1. Разработана модель представления поведенческой информации пользователя о его работе с текстовыми данными, на основе отображения содержимого электронных документов в тематическое пространство, формируемое с использованием неотрицательной матричной факторизации. Изменение значений весов тематик во времени формирует многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Анализ такого временного ряда позволяет определять факты аномального поведения пользователя для решения рассматриваемых задач компьютерной безопасности.
  2. Разработан метод прогнозирования тематической направленности пользователя, который служит для обнаружения интервалов времени несвойственной работы пользователя на основе значений отклонений тематической направленности от спрогнозированных данных.
  3. Разработан метод оценки принадлежности документа к тематикам пользователя, который служит для обнаружения фактов работы пользователя с несвойственными документами.
  4. На основе предложенного комплекса алгоритмов разработана архитектура и реализован экспериментальный прототип мультиагентной системы обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

 

Докладчик: Царёв Дмитрий Владимирович

Научные руководители:

д.ф.-м.н. Машечкин Игорь Валерьевич

к.ф.-м.н. Петровский Михаил Игоревич

Работа выполнена при финансовой поддержке Минобрнауки России (Соглашение № 14.604.21.0056 о предоставлении субсидии, Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056).

Начало семинара в 17.00

В докладе предлагается подход к моделированию процесса изменения содержания информационного пространства (ИП) социума с учетом силы информационного воздействия на его структурные элементы .

Современная система массовых коммуникации социума, рассматривается автором, как сложно-структурированная – социально-телекоммуникационная система (СТС), где социальные группы людей интегрированы с телекоммуникационными системами в многоканальной коммуникационной парадигме.  Автор выдвигает гипотезу, что информационное пространство современного общества, может быть описано динамикой содержания информационных сообщений, распространяемых с использованием средств массовой коммуникации.

Задача, по определению минимальных структурных элементов содержания информационного сообщения, единиц их измерения и оценки в данных единицах количественных и качественных характеристик информационного пространства, решается  автором благодаря синтезу методов когнитивной лингвистики на базе n-gramm (Харрис,  Гензер, Чарняк), подходов культурной эволюции – меметики (Докинз, Броди, Блэкмор), вероятностной моделью языка (Налимов), теории информационного противоборства (Расторгуев) и теории системно-когнитивного анализа (Луценко) .

В частности, автор, в отличии от лингвистических единиц сем/семема, определяет – мем, как единицу пригодную для фиксации наследственности смыслового содержания ИП СТС. Этот подход обусловлен частотой изменений содержания сообщении – она много выше чем частота появления семем (от нескольких дней). Использование мемов, позволяет зафиксировать более кратковременные изменения (от 1 часа) в содержании сообщений. Дополнительно, автор обосновывает, границы мема – как единицу больше 2-ух лексем, но меньше мемплекса – 2-ух и более мемов, передаваемых совместно.
В тоже время, хорошо зарекомендовавший на практике математический аппарат n-gramm (в компьютерных системах обработки сообщении на естественном языке), используется автором для трактовки мема как единицы наследственности содержания ИП СТС, находящейся в интервале между  биграммой и триграммой, а составной элемент из мемов – мемплекс – как единицу модели знаний. Данный подход, позволяет использовать математический аппарат n-gramm для оценки вероятности существования мема в информационном пространстве, а также определения законов эволюции моделей знаний. Новизна подхода автора заключается и в рассмотрении содержания ИП СТС, как эволюционирующей во времени системы семантических связей мемов.

В качестве направления для дальнейших исследовании, автор предлагает подходы: а) к  оценке силы информационного воздействия на единичные элементы ИП СТС, определяемую через вероятность нахождения (появление или гибель) мема в информационном пространстве; б) к прогнозированию содержания информационного пространства, с учетом уровня системности/эмерджетности моделей знаний (мемплексов).

Кроме теоретического материала, автором представлены результаты анализа информационного пространства русскоязычного сегмента ИП СТС (3 000 публикации за июль–август 2014 года), полученные с использованием предлагаемого им подхода. Результат анализа содержит расчеты вероятностей, агрессивности и силы воздействия для ТОП 30 из 600 выявленных мемов в русскоязычном сегменте ИП СТС.

Структура доклада

  1. Введение. Роль информационного пространства в жизнедеятельности социума;
  2. Определение понятийного аппарата: социально-телекоммуникационная система, план содержания и план выражения, цифровое информационное пространство социума;
  3. Эволюционная модель наследственности содержания информационных сообщении;
    • Постановка задачи
    • Лингвистика, семы и лексемы
    • Меметика, мемы и мемплексы
    • Математические модели в корпусной и когнитивной лингвистике;
    • Синтез аппарата меметики и мат. методов лингвистики;
    • Определение силы информационного воздействия на мемы и мемплекы
    • Тестирование модели на реальных данных
    • Выводы.

Докладчик: Артёмов Артём Анатольевич

Презентация: pdf