Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts published by Yaroslav Nedumov

По итогам обработки поступивших анкет получилось следующее распределение тем по студентам:

ФИО ВУЗ Курс Научрук Предварительная формулировка темы
Аксенов Михаил Владимирович ВМК 4 Андрианов Исправление ошибок в русскоязычных текстах с помощью нейронных сетей
Аксенова Елена ВМК 4 Богомолов/Борисенко Распределенный сервис идентификации для облачной платформы
Алексеев Евгений Сергеевич ВШЭ 5 Борисенко Улучшение Ignite
Архипенко Константин Владимирович ВМК 6 Турдаков/Архипенко Методы определения сленга в социальных сетях и их приложения к задачам NERC и извлечения объектов баз знаний
Бабичев Антон ВМК 6 Недумов Object-Graph-Mapping для TinkerPop
Баранов Антон Сергеевич ВШЭ 4 Варламов Сбор данных из форумов
Бондаренко Владислав Александрович МФТИ 4 Акопян Поиск людей в потоке изображений
Борисов Павел ВШЭ 5 Борисенко Облачная среда на базе Xen/XAPI
Варламова Арина Олеговна ВМК 5 (1 год магистратуры) Трофимович Выделение этнофолизмов
Васьков Александр Олегович ВМК 3 Майоров SemEval-2018 Task 11: Machine Comprehension using Commonsense Knowledge
Егоров Николай Сергеевич ВШЭ 4 Андрианов Диалоговые системы
Еремин Дмитрий Александрович ВШЭ 5 Тапехин/Борисенко Хранение данных OpenEHR
Ермакова Елена Сергеевна МФТИ 4 Гомзин Определение демографических атрибутов пользователей сети Интернет по текстам их сообщений
Ефремова Мария Александровна МФТИ 4 Дробышевский
Использование распределения подграфов в графе для определения демографических атрибутов пользователей сети Интернет
Иконникова Мария Кирилловна ВМК 5 (1 год магистратуры) Гомзин Определение демографических атрибутов пользователей сети Интернет по текстам их сообщений
Манджиев Айта Викторович ВМК 4 Недумов Загрузка больших графов в JanusGraph
Миронов Артём Владимирович ВМК 3 Майоров SemEval-2018 Task 11: Machine Comprehension using Commonsense Knowledge
Портной Александр Михайлович ВМК 4 Дробышевский Метод вычисления распределения подграфов в графе
Раснюк Александр Геннадьевич ВМК 3 Майоров Совместная модель для морфологического и синтаксического разбора русского языка
Рахимов Руслан Ильдарович МФТИ 4 Трофимович Выделение и классификация этнофолизмов
Сёмина Наталья МФТИ 5 Недумов Определение вклада статьи на основе обобщения контекстов, в которых она была процитирована
Строев Вячеслав Игоревич ВМК 4 Андрианов Диалоговые системы
Тапехин Андрей ВМК 6 Борисенко Отказоустойчивая система для обработки банковских данных
Трифонов Владислав Дмитриевич ВМК 3 Андрианов Викификация в русскоязычных текстах с помощью нейронных сетей
Яцков Александр Константинович ВМК 6 Варламов Сбор и агрегация новостных статей из Интернет-СМИ

Дерюгин Максим Александрович, Кравченко Егор Викторович, Самченко Дмитрий Андреевич, к сожалению, выбранные вами темы достались другим студентам. Мы с вами свяжемся в течение недели, когда поймем, кто из научных руководителей сможет вас взять. Можно проявить инициативу, и попробовать самостоятельно договориться на любую еще не занятую тему.

Остальные: свяжитесь со своими научными руководителями и узнайте план дальнейших действий.

Доклад является продолжением осеннего доклада про задачу сопоставления сущностей.

В этой части будет кратко рассказано об активном обучении (active learning) вообще и о его применении к задаче сопоставления сущностей.

Активное обучение – подобласть исследований в рамках машинного обучения, объединяющая методы активного выбора точек для добавления в обучающий набор. Из-за высокой зависимости задачи сопоставления сущностей от конкретной предметной области создание переиспользуемых обучающих наборов практически невозможно. По этой причине применение методов активного обучения выглядит перспективным и должно позволить применять для решения задачи сопоставления сущностей автоматические классификаторы.

Отдельная проблема при использовании методов активного обучения – это качество ответов эксперта. Так как общий объем обучающей выборки сравнительно небольшой, а входящие в нее элементы максимально важны для построения качественного классификатора, то возможные ошибки при их разметке могут пагубно отразиться на качестве итогового классификатора.

В ходе выполненного проекта мы изучили несколько существующих методов активного обучения, разработали свой, а также исследовали его зависимость от ошибок в ответах эксперта.

Докладчик: Ярослав Недумов

В докладе будет рассказано о проблеме обнаружения плагиата, основных методах модификации, используемых для его сокрытия, а также
о методах и алгоритмах борьбы с ними. Также будут рассмотрены основные методы поиска плагиата, в том числе и современные.

Рассматриваемые методы поиска плагиата: метод “Шинглов” и его модификации, I-Match, метод “Опорных” слов,
метод коэффициента совпадения документов, методы, основанные на использовании внешних поисковых систем.

Литература:
1) Зеленков Ю. Г. и Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для Web
2) Potthast Martin Overview of the 4th International Competition on Plagiarism Detection.
3) Barrґon-Cede˜no Alberto и Rosso Paolo On Automatic Plagiarism Detection Based on n-Grams Comparison
4) Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск.
5) Ilyinsky Sergey An efficient method to detect duplicates of Web documents with the use of inverted index.

Докладчик: Бабаков Александр

Зачет для всех курсов начнется завтра, во вторник, 24 декабря, в 18:00. Обратите внимание, время начала сдвинуто на час раньше!

Регламент зачета следующий:

  1. выступления 3 курса,
  2. выступления 4 курса,
  3. выступления 5 курса,
  4. проставление зачетов тем, кто их заработал.

Формат выступлений был описан ранее.

Сегодня вместо доклада будет консультация перед зачетом. Если у вас есть вопросы, как готовить презентацию результатов работы в семестре, вы можете сегодня их обсудить.

Для допуска к зачету необходимо подготовить краткую презентацию (около 5-7 минут) результатов работы в семестре.

Из презентации должно быть понятно (в скобках указаны соответствующие части текста курсовой/диплома):

  1. Что конкретно планируется достичь в результате выполнения работы и почему это важно? (Примерно введение + постановка).
  2. Что уже сделано в этой области? (Обзор).
  3. Как планируется решать задачу? (Исследование и построение решения).
  4. Был ли реализован прототип и что он показал? (Описание практической части).

Прогресс (или отсутствие оного) по каждому из направлений (постановка задачи, обзор, исследование, программирование) в течение семестра должен быть явно обозначен.

Для всех допущенных студентов критерии получения зачета определяются научным руководителем (и самое время их прояснить, если вы этого еще не сделали).

10.12.13 семинара не будет, просьба передать всем заинтересованным.

One possible way of improving performance of distributed graph processing algorithms is using graph partitioning algorithms. This presentation gives an overview of graph partitioning algorithms and their use. Main ideas for the following algorithms are described: Kernighan-Lin partitioning algorithm, METIS, Balanced Label Propagation.

Speaker: Roman Pastukhov

Presentation

Доклад посвящен новому подходу к автоматизации извлечения полезной информации из таблиц. Этот подход основан на моделировании поведения эксперта, который собирает табличные данные и отображает их в предопределенную реляционную схему. Экспериментальные результаты показывают, что предложенный подход предсказывает экспертные решения с высокой точностью и, таким образом, значительно сокращает время, необходимое эксперту для агрегирования данных.

Докладчик: Никита Астраханцев

Слайды

In order to provide complex solutions, modern data management requires understanding of problems from different points of view. This presentation describes current challenges and directions of work in data management. The first part of presentation gives overview of infrastructure for data management. Then techniques for processing particular type of data – text data are presented. We describe main problems and their possible solutions using known approaches, including ideas and technologies developed in ISPRAS.

Speaker: Denis Turdakov