22 — Март — 2016 — Управление данными и информационные системы

За последние несколько лет наблюдается устойчивый рост интереса к задачам безопасности данных в корпоративных информационных системах, связанным с внутренними угрозами. Требуются исследование и разработка новых способов решения следующих задач: идентификация пользователей, обнаружение нецелевого использования корпоративных ресурсов, раннее обнаружения попыток хищения информации. В контексте обозначенных задач потенциально важным является анализ особенности работы пользователей с текстовыми данными (документы, web-страницы, электронная почта) с целью выявления их аномального поведения, которое может свидетельствовать о том, что: пользователь не является тем, от имени кого он авторизовался (задача идентификации пользователей); пользователь тратит рабочее время на материалы, не относящиеся к его рабочей деятельности (задача обнаружения нецелевого использования корпоративных ресурсов); пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком потенциальной утечки информации (задача раннего обнаружения попыток хищения информации).

Целью диссертационной работы является исследование и разработка математического и программного обеспечения обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

Результаты, выносимые на защиту:

Разработана модель представления поведенческой информации пользователя о его работе с текстовыми данными, на основе отображения содержимого электронных документов в тематическое пространство, формируемое с использованием неотрицательной матричной факторизации. Изменение значений весов тематик во времени формирует многомерный временной ряд, описывающий историю поведения пользователя при работе с текстовыми данными. Анализ такого временного ряда позволяет определять факты аномального поведения пользователя для решения рассматриваемых задач компьютерной безопасности.
Разработан метод прогнозирования тематической направленности пользователя, который служит для обнаружения интервалов времени несвойственной работы пользователя на основе значений отклонений тематической направленности от спрогнозированных данных.
Разработан метод оценки принадлежности документа к тематикам пользователя, который служит для обнаружения фактов работы пользователя с несвойственными документами.
На основе предложенного комплекса алгоритмов разработана архитектура и реализован экспериментальный прототип мультиагентной системы обнаружения аномального поведения пользователей по особенностям работы с текстовой информацией.

Докладчик: Царёв Дмитрий Владимирович

Научные руководители:

д.ф.-м.н. Машечкин Игорь Валерьевич

к.ф.-м.н. Петровский Михаил Игоревич

Работа выполнена при финансовой поддержке Минобрнауки России (Соглашение № 14.604.21.0056 о предоставлении субсидии, Уникальный идентификатор прикладных научных исследований RFMEFI60414X0056).

Начало семинара в 17.00

В докладе предлагается подход к моделированию процесса изменения содержания информационного пространства (ИП) социума с учетом силы информационного воздействия на его структурные элементы .

Современная система массовых коммуникации социума, рассматривается автором, как сложно-структурированная – социально-телекоммуникационная система (СТС), где социальные группы людей интегрированы с телекоммуникационными системами в многоканальной коммуникационной парадигме. Автор выдвигает гипотезу, что информационное пространство современного общества, может быть описано динамикой содержания информационных сообщений, распространяемых с использованием средств массовой коммуникации.

Задача, по определению минимальных структурных элементов содержания информационного сообщения, единиц их измерения и оценки в данных единицах количественных и качественных характеристик информационного пространства, решается автором благодаря синтезу методов когнитивной лингвистики на базе n-gramm (Харрис, Гензер, Чарняк), подходов культурной эволюции – меметики (Докинз, Броди, Блэкмор), вероятностной моделью языка (Налимов), теории информационного противоборства (Расторгуев) и теории системно-когнитивного анализа (Луценко) .

В частности, автор, в отличии от лингвистических единиц сем/семема, определяет – мем, как единицу пригодную для фиксации наследственности смыслового содержания ИП СТС. Этот подход обусловлен частотой изменений содержания сообщении — она много выше чем частота появления семем (от нескольких дней). Использование мемов, позволяет зафиксировать более кратковременные изменения (от 1 часа) в содержании сообщений. Дополнительно, автор обосновывает, границы мема – как единицу больше 2-ух лексем, но меньше мемплекса – 2-ух и более мемов, передаваемых совместно.
В тоже время, хорошо зарекомендовавший на практике математический аппарат n-gramm (в компьютерных системах обработки сообщении на естественном языке), используется автором для трактовки мема как единицы наследственности содержания ИП СТС, находящейся в интервале между биграммой и триграммой, а составной элемент из мемов — мемплекс – как единицу модели знаний. Данный подход, позволяет использовать математический аппарат n-gramm для оценки вероятности существования мема в информационном пространстве, а также определения законов эволюции моделей знаний. Новизна подхода автора заключается и в рассмотрении содержания ИП СТС, как эволюционирующей во времени системы семантических связей мемов.

В качестве направления для дальнейших исследовании, автор предлагает подходы: а) к оценке силы информационного воздействия на единичные элементы ИП СТС, определяемую через вероятность нахождения (появление или гибель) мема в информационном пространстве; б) к прогнозированию содержания информационного пространства, с учетом уровня системности/эмерджетности моделей знаний (мемплексов).

Кроме теоретического материала, автором представлены результаты анализа информационного пространства русскоязычного сегмента ИП СТС (3 000 публикации за июль–август 2014 года), полученные с использованием предлагаемого им подхода. Результат анализа содержит расчеты вероятностей, агрессивности и силы воздействия для ТОП 30 из 600 выявленных мемов в русскоязычном сегменте ИП СТС.

Структура доклада

Введение. Роль информационного пространства в жизнедеятельности социума;
Определение понятийного аппарата: социально-телекоммуникационная система, план содержания и план выражения, цифровое информационное пространство социума;
Эволюционная модель наследственности содержания информационных сообщении;
- Постановка задачи
- Лингвистика, семы и лексемы
- Меметика, мемы и мемплексы
- Математические модели в корпусной и когнитивной лингвистике;
- Синтез аппарата меметики и мат. методов лингвистики;
- Определение силы информационного воздействия на мемы и мемплекы
- Тестирование модели на реальных данных
- Выводы.

Докладчик: Артёмов Артём Анатольевич

Презентация: pdf

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for Март 22nd, 2016

Методы и программные средства анализа поведения пользователей при работе с текстовыми данными для решения задач информационной безопасности (05.04.16)

Математическое моделирование процесса изменения содержания информационного пространства социума (29.03.16)