Author Archive

Поиск угроз информационной безопасности (23.04.2019)

Обеспечение информационной безопасности организации уже давно вышло за пределы просто процесса настройки межсетевого экрана и написания политики безопасности. Понимание принципов работы злоумышленников, знание техник и процедур, а также прогнозирование актуальных угроз информационной безопасности может сильно увеличить возможности успешного противостояния нарушителям.

Будут даны определения угроз и уязвимостей информационной безопасности, способы и мировые стандарты описания, хранения и обмена угрозами и уязвимостями ИБ, рассмотрены основные участники (акторы) процессов выявления угроз и уязвимостей ИБ, их функции, платформы обработки и анализа данных (платформы Threat Intelligence. Будут рассмотрены подходы к прогнозированию угроз информационной безопасности (существующие методики и разрабатываемые теоретические подходы).

Докладчик: Евгений Бечкало

 

Построение диалоговых систем (04.12.2018)

Построение диалоговых систем (чат-ботов) является одной из самых актуальных задач natural language processing. В последние годы получено большое количество теоретических и практических результатов в данной области. К практическим результатам можно отнести создание таких систем, как Amazon Alexa, Yandex Alisa  и т.д, теоретические результаты регулярно публикуются в рамках основного и competition треков крупнейших конференций по машинному обучению (хороший обзор полученных теоретических результатов есть в https://www.kdd.org/exploration_files/19-2-Article3.pdf).
На докладе будет дан обзор современного состояния теории построения диалоговых систем, рассказаны основные подходы к построению goal-oriented и chit-chat ботов, теоретические результаты и фреймворки для построения чат-ботов. Будут представлены практические результаты, полученные в рамках участия в хакатоне deephack 2018.
Докладчик: Александр Никитин
Презентация: pdf

Сквозное кэширование JSON и TPC-H для Apache Ignite

13 ноября (вторник) в 18:00 будет проведен семинар, посвященный реализации операций над JSON-данными через JDBC в режиме сквозного кэширования над PostgreSQL. Также будет рассказано о бенчмарке TPC-H и сравнении Apache Ignite, VoltDB и PostgreSQL.

Докладчики: Никита Лазарев и Давид Бадалян.

 

Приходите.

Старт семинара 2017 год

Внимание! 26.09.2017 (вторник) в 19:00 состоится первый спецсеминар в 2017-2018 учебном году.

Приглашаются студенты ВМК МГУ, МФТИ и ВШЭ. На первом семинаре научные руководители расскажут о себе и темах курсовых/дипломных работ. Явка студентов обязательна!

UPDATE:

Распределение тем на спецсеминаре происходит по обобщенному алгоритму Гейла-Шепли. Механика процесса следующая:

  1. Во вторник вечером мы рассказываем о своих направлениях исследований и темах работ.
  2. После семинара и далее в течение недели, до пятницы 29 сентября включительно, можно договориться с потенциальным научным руководителем, встретиться и обсудить темы более подробно.
  3. К 6 часам утра понедельника 2 октября каждый студент должен отправить письмо со своими приоритетами на адрес yaroslav.nedumov@ispras.ru. Письмо должно содержать:
    1. Тема: «Выбор тем, ФИО, курс (3, 4, 5 или 6), ВУЗ (ВМК, МФТИ или ВШЭ)«. Например: «Выбор тем, Байес Томас Джошуевич, 5 курс, МФТИ»
    2. Эссе на 0,5 — 1 страницу (1-2 тыс. знаков) с описанием ваших интересов и мотивов выбора тем.
    3. 3-5 (лучше 5) тем работ в порядке убывания приоритета в формате: фамилия научного руководителя, название темы.

    UPDATE 2: Заполнить гуглоформу: https://goo.gl/forms/NiNHIXHuAwZ6QZdU2. (Кто уже отправил мне письмо, не переживайте, я о вас помню).

  4. В течение понедельника-вторника мы определимся со своими предпочтениями и к следующему семинару (19:00, 3 октября) здесь, на сайте семинара, будет опубликовано распределение по темам.

Интегрированный язык запросов PythonQL — укрощение зоопарка СУБД (16.05.2017)

В последние несколько лет количество различных СУБД с разными языками запросов и моделями
данных стремительно выросло. Даже при наличие стандартов, таких как SQL, очень много функционала в стандарты не попадает (например различные библиотеки функций и расширения языка), таким образом каждая СУБД с поддержкой SQL на самом деле предлагает свой особый диалект. При этом, возможности программистов, а особенно data scientists и инженеров
осваивать и держать в рабочем состоянии умения работать с большим количеством баз принципиально не изменилось.

В проекте PythonQL мы решаем сразу несколько задач, но основная из них — дать простой удобный интерфейс программисту ко всем СУБД через встроенный язык запросов и с использованием уже знакомых программисту библиотек. Кроме этой задачи,
программист получает возможность одним запросом обращаться в несколько разных СУБД, использовать в запросе данные из файлов и структур данных из оперативной памяти программы.

В докладе будет представлен как само расширение PythonQL, так и текущая реализация и перспективы развития системы.

Начало в 18.00
Докладчик: Павел Велихов

Генерация случайных графов на основе эмбеддинга графа (07.03.2017)

Для тестирования значимости или масштабируемости алгоритмов анализа сетей (например, поиска сообществ в графе) необходимо иметь датасет из разных графов разного размера. Однако, обычно в наличии есть небольшое количество реальных графов, а кроме того, их свойства могут сильно различаться в зависимости от домена: социальные графы, графы звонков, биологические и т.д. Поэтому необходимо уметь генерить случайные графы разного размера, похожие на данный и имеющие свойства, характерные для графов из этого домена.
Особенностью рассмотренной задачи также является то, что часто ребра графа ориентированны и имеют веса, а сами графы имеют сообщества. Соответственно, генерируемые графы тоже должны быть ориентированными, взвешенными и иметь сообщества с похожей структурой.
В докладе предлагается метод генерации случайных графов, основанный на эмбеддинге графа (graph embedding). Graph embedding успешно используется для автоматического извлечения графовых признаков путем представления вершин графа векторами небольшой размерности. Будет рассказано о том, как этот подход применить для генерации похожих на данный граф случайных направленных взвешенных графов с сообществами.

Докладчик: Дробышевский Михаил

Обзор и экспериментальное сравнение методов кластеризации текстов в приложении к научным статьям (28.02.17)

Кластеризация текстовых документов, то есть разбиение множества документов на близкие по смыслу подмножества, является фундаментальной задачей обработки текстов. Ее результаты используются во многих прикладных задачах (таких как информационный поиск, исследовательский поиск, определение спама).
Данный доклад посвящен обзору и экспериментальному сравнению методов кластеризации текстовых документов в приложении к научным статьям. В ходе доклада будут рассмотрены методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).

Докладчик: Павел Пархоменко

Векторное представление вершин графа (29.11.2016)

Социальный граф содержит много информации о пользователях социальных сетей и
может быть использован для определения демографических атрибутов, определения
основного мест проживания и выявления ботов. Однако использование графа затруднено т.к. большинство алгоритмов классификации и регрессии не способны работать с графом непосредственно.
Для того, чтобы использовать стандартные методы машинного обучения можно
представить вершины графа в виде векторов небольшой размерности. О методах представления вершин графа в векторном виде будет рассказано на  семинаре.

Докладчик: Илья Козлов