Author Archive

Просеминар на ВМК

20 марта в 14:35 в аудитории 507 Денис Турдаков и Ярослав Недумов расскажут про направления работы на спецсеминаре «Управление данными и информационные системы» кафедры СП.

Приглашаются студенты 2 курса, выбирающие, на какую кафедру пойти.

Задача классификации контекстов цитирований (15.01.2019)

Подсчёт количества цитирований является одним из основных показателей при расчете метрик для оценки значимости исследования. К примеру, индекс Хирша, который является популярной метрикой для оценки деятельности исследователей основан именно на количестве цитирований. Однако, никак не учитывается вес цитирований. Аналогично, на графе цитирования все цитирования обычно обозначаются одинаковыми рёбрами от одной статьи к другой. Во внимание принимаются вопросы о том, какие работы цитируют учёные, кто автор данных работ, однако не рассматривается такой важный аспект, как причина цитирования. В то время как цитирования могут нести разную смысловую нагрузку, в том числе и негативную.

В докладе будут рассмотрены причины цитирований, представлены результаты по построению классификатора для автоматического определения цели цитирования.

Доклад состоится 15.01.19 в 18.00

Докладчик: Семина Наталья

(UPDATED) Курсовые и выпускные работы студентов семинара на 2018/2019 учебный год

Распределением тем по студентам закончено, итоговая таблица опубликована ниже. Для уточнения дальнейших планов свяжитесь со своим научным руководителем.

Курс ВУЗ ФИО Фамилия руководителя
Направление работы
3 ВМК Бурков Никита Анатольевич Рындин (Скорняков)
Исследовние и разработка методов выделения и предобработки текстов на изображениях
3 ВМК Зимнюков Максим Олегович Дробышевский
Исследование свойств динамических графов
3 ВМК Клочко Андрей Андреевич Яцков
Сбор данных (уточняется)
3 ВМК Муинова Анастасия Муинжоновна Архипенко
Исследование влияния неформального языка на эмоциональную окраску текстов
3 ВМК Пеганова Ирина Олеговна Недумов
Суммаризация аннотаций научных статей
3 ВМК Самохина Анна Романовна Недумов
Контекстно-зависимая рекомендация цитирований в научных статьях
4 ВМК Аветисян Арам Арутюнович Турдаков
Исследование и разработка методов оценки популярности информационных сюжетов на ранних стадиях
4 ВМК Кравченко Егор Викторович Архипенко
Выявление иронии для анализа тональности по отношению к NE (уточняется)
4 ВМК Миронов Артем Владимирович Варламов
Методы извлечения структуры из полуструктурированных текстов (уточняется)
4 ВМК Николаева Айталина Владимировна Андрианов
Методы переноса знаний о синтаксической структуре в задаче извлечения отношений
4 ВМК Раснюк Александр Геннадьевич Архипенко
Методы глубокого активного обучения алгоритмов обработки текстов
4 ВМК Трифонов Владислав Дмитриевич Андрианов
Методы извлечения отношений с частичным привлечением учителя
4 МФТИ Бойко Александр Михайлович Архипенко
Multi-task learning for NLP (уточняется)
4 МФТИ Великанов Олег Тапехин
Сравнительный анализ алгоритмов консенсуса в недоверенных сетях
4 МФТИ Гусева Дарья Скорняков
Граф эмбединг + адаптация к домену
4 МФТИ Дяченко Татьяна Владимировна Варламов
Сбор данных из форумов
4 МФТИ Жибоедова Анастасия Андреевна Яцков
Поиск PDF-документов научных статей в Вебе
4 МФТИ Кузнецов Мирон Дмитриевич Яцков
Автоматические построение новостного потока для сайтов СМИ
4 МФТИ Лоик Анна Валерьевна Недумов
Кластеризация коллекций научных статей
5 ВМК Барашко Владимир Тапехин
Достижение консенсуса в недоверенной сети в распределенных базах данных
5 ВМК Портной Александр Михайлович Дробышевский
Сравнение методов генерации графов, похожих на данный
5 ВМК Строев Вячеслав Игоревич Андрианов
Методы извлечения отношений (мета-тема)
5 ВШЭ Аникин Дмитрий Сергеевич Недумов
Исследование методов повышения производительности графовых баз данных
5 ВШЭ Бардуков Анатолий Дробышевский
Блокчейн (уточняется)
5 ВШЭ Беляева Дарья Скорняков
Граф эмбединг и адаптация к домену
5 ВШЭ Ломотин Константин Евгеньевич Рындин (Скорняков)
Адаптация к домену в задаче распознавания текстов
6 ВМК Варламова Арина Олеговна Трофимович
Активное обучение при разметке корпуса несколькими аннотаторами
6 ВМК Иконникова Мария Кирилловна Андрианов
Методы выявления именных групп
6 ВМК Лазарев Никита Алексеевич Борисенко
(пока неточная формулировка) Исследование и реализация исполнения запросов к JSON данным в распределенной СУБД в оперативной памяти
6 ВШЭ Борисов Павел Геннадьевич Борисенко
(пока неточная формулировка) Реализация облачной среды для экосистемы XenServer
6 МФТИ Рындин Максим Алексеевич Турдаков
Онлайновая инкрементная полуконтролируемая настройка текстовых классификаторов
6 МФТИ Сёмина Наталья Викторовна Недумов
Классификация типов цитирований научных статей
6 МФТИ Швецова Валерия Валерьевна Борисенко
(пока неточная формулировка) DSL для поднятия сложных сервисов в облаках

Если вы не нашли себя в таблице, свяжитесь с научным руководителем. Если вы не знаете своего научного руководителя, свяжитесь со мной: yaroslav.nedumov@ispras.ru.

Курсовые и выпускные работы студентов семинара на 2018/2019 учебный год

По итогам поступивших анкет и заявок от научных руководителей сформирована таблица с распределением студентов по научным руководителям и направлениям. Поздравляем!

Курс ВУЗ ФИО Фамилия руководителя Направление работы
3 ВМК Пеганова Ирина Олеговна Недумов Суммаризация аннотаций научных статей
4 МФТИ Лоик Анна Валерьевна Недумов Кластеризация коллекций научных статей
4 МФТИ Гусева Дарья Скорняков Граф эмбединг + адаптация к домену
4 МФТИ Великанов Олег Тапехин
Сравнительный анализ алгоритмов консенсуса в недоверенных сетях
4 МФТИ Кузнецов Мирон Дмитриевич Яцков
Автоматические построение новостного потока для сайтов СМИ
4 МФТИ Жибоедова Анастасия Андреевна Яцков
Поиск PDF-документов научных статей в Вебе
4 МФТИ Дяченко Татьяна Владимировна Варламов Сбор данных из форумов
5 ВМК Барашко Владимир Дробышевский ColorChain возможно
5 ВМК Портной Александр Михайлович Тапехин
Достижение консенсуса в недоверенной сети в распределенных базах данных
5 ВШЭ Аникин Дмитрий Сергеевич Недумов
Исследование методов повышения производительности графовых баз данных
5 ВШЭ Бардуков Анатолий Дробышевский Свой стартап по блокчейн
5 ВШЭ Беляева Дарья Скорняков Граф эмбединг и адаптация к домену
6 ВМК Варламова Арина Олеговна Трофимович
Активное обучение при разметке корпуса несколькими аннотаторами
6 МФТИ Сёмина Наталья Викторовна Недумов
Классификация типов цитирований научных статей

Студенты из второй таблицы продолжают работу со своими научными руководителями, но должны выяснить у них свои темы.

Курс ВУЗ ФИО
Фамилия руководителя
4 ВМК Аветисян Арам Арутюнович Турдаков
4 ВМК Кравченко Егор Викторович Архипенко
4 ВМК Раснюк Александр Геннадьевич Архипенко
4 ВМК Трифонов Владислав Дмитриевич Андрианов
5 ВМК Аксенов Михаил Владимирович Андрианов
5 ВМК Аксенова Елена Леонидовна Борисенко
5 ВМК Жаботинский Андрей Андреевич Скорняков
5 ВМК Строев Вячеслав Игоревич Андрианов
6 ВШЭ Борисов Павел Геннадьевич Борисенко
6 МФТИ Рындин Максим Алексеевич Турдаков
6 МФТИ Швецова Валерия Валерьевна Борисенко
6 ВМК Лазарев Никита Алексеевич Борисенко
6 МФТИ Зыков Никита Викторович Лагута

Анкета Ломотина Константина Евгеньевича поступила с опозданием, но будет обработана в ближайшие дни.

Если вы не нашли себя ни в одной из таблиц, но у вас была договоренность с научным руководителем о теме до 1 октября: напишите своему научному руководителю, чтобы он со мной связался.

Остальные должны отправить объяснительную, почему они не заполнили форму вовремя, на почту yaroslav.nedumov@ispras.ru. И заполнить форму. Вопрос с распределением будет решаться в индивидуальном порядке.

Распределение тем на 2018/2019 учебный год

Внимание! 24.09.2018 (понедельник) в 18:00 состоится презентация тем курсовых и дипломных работ. Предварительный список тем можно найти уже сейчас на страницах научных руководителей.

Приглашаются студенты ВМК МГУ, МФТИ и ВШЭ.

Распределение тем на спецсеминаре происходит по обобщенному алгоритму Гейла-Шепли. Механика процесса следующая:

  1. В понедельник вечером мы рассказываем о своих направлениях исследований и темах работ.
  2. После семинара и далее в течение недели, до пятницы 28 сентября включительно, можно договориться с потенциальным научным руководителем, встретиться и обсудить темы более подробно.
  3. К 6 часам утра понедельника 1 октября каждый студент, у которого еще нет твердой договоренности с научным руководителем, должен заполнить гуглоформу с его предпочтениями по темам (ссылка появится здесь после презентации тем).
  4. В течение понедельника-вторника мы определимся со своими предпочтениями и к следующему семинару (19:00, 2 октября) здесь, на сайте семинара, будет опубликовано распределение по темам.

Исследовательский поиск научных публикаций (17.04.2018)

Современные поисковые системы хорошо подходят для поиска единичных фактов, конкретных документов, ответов на вопросы. Однако не всегда поисковые потребности пользователей так конкретны. Пользователь может точно не знать, что именно он хочет найти, может не понимать, пора ли закончить поиск или следует продолжать, анализ результатов поиска может требовать значительного времени. В таких случаях говорят о задаче исследовательского поиска (exploratory search). Эффективное решение задачи исследовательского поиска требует применения специфических инструментов, зачастую зависящих от домена. Интуитивно понятно, что поиск научных данных во многих случаях является исследовательским. Поиск в этом домене с одной стороны сталкивается с вызовами: сложность языка текстов, специфическая терминология, а с другой стороны, кроме текстов статей можно использовать метаданные (время и место публикации, авторов) и граф цитирования.

В докладе будут рассмотрены варианты постановки задачи исследовательского поиска, рассмотрены поисковые потребности ученых и формализована их связь с задачей исследовательского поиска. Будут рассмотрены инструменты исследовательского поиска и их реализации в современных системах поиска публикаций.

Доклад состоится 17.04.2018 в 18:00 в 110 комнате ИСП РАН.

Докладчик: Ярослав Недумов

Распределение тем

По итогам обработки поступивших анкет получилось следующее распределение тем по студентам:

ФИО ВУЗ Курс Научрук Предварительная формулировка темы
Аксенов Михаил Владимирович ВМК 4 Андрианов Исправление ошибок в русскоязычных текстах с помощью нейронных сетей
Аксенова Елена ВМК 4 Богомолов/Борисенко Распределенный сервис идентификации для облачной платформы
Алексеев Евгений Сергеевич ВШЭ 5 Борисенко Улучшение Ignite
Архипенко Константин Владимирович ВМК 6 Турдаков/Архипенко Методы определения сленга в социальных сетях и их приложения к задачам NERC и извлечения объектов баз знаний
Бабичев Антон ВМК 6 Недумов Object-Graph-Mapping для TinkerPop
Баранов Антон Сергеевич ВШЭ 4 Варламов Сбор данных из форумов
Бондаренко Владислав Александрович МФТИ 4 Акопян Поиск людей в потоке изображений
Борисов Павел ВШЭ 5 Борисенко Облачная среда на базе Xen/XAPI
Варламова Арина Олеговна ВМК 5 (1 год магистратуры) Трофимович Выделение этнофолизмов
Васьков Александр Олегович ВМК 3 Майоров SemEval-2018 Task 11: Machine Comprehension using Commonsense Knowledge
Егоров Николай Сергеевич ВШЭ 4 Андрианов Диалоговые системы
Еремин Дмитрий Александрович ВШЭ 5 Тапехин/Борисенко Хранение данных OpenEHR
Ермакова Елена Сергеевна МФТИ 4 Гомзин Определение демографических атрибутов пользователей сети Интернет по текстам их сообщений
Ефремова Мария Александровна МФТИ 4 Дробышевский
Использование распределения подграфов в графе для определения демографических атрибутов пользователей сети Интернет
Иконникова Мария Кирилловна ВМК 5 (1 год магистратуры) Гомзин Определение демографических атрибутов пользователей сети Интернет по текстам их сообщений
Манджиев Айта Викторович ВМК 4 Недумов Загрузка больших графов в JanusGraph
Миронов Артём Владимирович ВМК 3 Майоров SemEval-2018 Task 11: Machine Comprehension using Commonsense Knowledge
Портной Александр Михайлович ВМК 4 Дробышевский Метод вычисления распределения подграфов в графе
Раснюк Александр Геннадьевич ВМК 3 Майоров Совместная модель для морфологического и синтаксического разбора русского языка
Рахимов Руслан Ильдарович МФТИ 4 Трофимович Выделение и классификация этнофолизмов
Сёмина Наталья МФТИ 5 Недумов Определение вклада статьи на основе обобщения контекстов, в которых она была процитирована
Строев Вячеслав Игоревич ВМК 4 Андрианов Диалоговые системы
Тапехин Андрей ВМК 6 Борисенко Отказоустойчивая система для обработки банковских данных
Трифонов Владислав Дмитриевич ВМК 3 Андрианов Викификация в русскоязычных текстах с помощью нейронных сетей
Яцков Александр Константинович ВМК 6 Варламов Сбор и агрегация новостных статей из Интернет-СМИ

Дерюгин Максим Александрович, Кравченко Егор Викторович, Самченко Дмитрий Андреевич, к сожалению, выбранные вами темы достались другим студентам. Мы с вами свяжемся в течение недели, когда поймем, кто из научных руководителей сможет вас взять. Можно проявить инициативу, и попробовать самостоятельно договориться на любую еще не занятую тему.

Остальные: свяжитесь со своими научными руководителями и узнайте план дальнейших действий.

Использование методов активного обучения для решения задачи сопоставления сущностей (12.04.2016)

Доклад является продолжением осеннего доклада про задачу сопоставления сущностей.

В этой части будет кратко рассказано об активном обучении (active learning) вообще и о его применении к задаче сопоставления сущностей.

Активное обучение — подобласть исследований в рамках машинного обучения, объединяющая методы активного выбора точек для добавления в обучающий набор. Из-за высокой зависимости задачи сопоставления сущностей от конкретной предметной области создание переиспользуемых обучающих наборов практически невозможно. По этой причине применение методов активного обучения выглядит перспективным и должно позволить применять для решения задачи сопоставления сущностей автоматические классификаторы.

Отдельная проблема при использовании методов активного обучения — это качество ответов эксперта. Так как общий объем обучающей выборки сравнительно небольшой, а входящие в нее элементы максимально важны для построения качественного классификатора, то возможные ошибки при их разметке могут пагубно отразиться на качестве итогового классификатора.

В ходе выполненного проекта мы изучили несколько существующих методов активного обучения, разработали свой, а также исследовали его зависимость от ошибок в ответах эксперта.

Докладчик: Ярослав Недумов

Методы поиска плагиата (15.04.14)

В докладе будет рассказано о проблеме обнаружения плагиата, основных методах модификации, используемых для его сокрытия, а также
о методах и алгоритмах борьбы с ними. Также будут рассмотрены основные методы поиска плагиата, в том числе и современные.

Рассматриваемые методы поиска плагиата: метод «Шинглов» и его модификации, I-Match, метод «Опорных» слов,
метод коэффициента совпадения документов, методы, основанные на использовании внешних поисковых систем.

Литература:
1) Зеленков Ю. Г. и Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для Web
2) Potthast Martin Overview of the 4th International Competition on Plagiarism Detection.
3) Barrґon-Cede˜no Alberto и Rosso Paolo On Automatic Plagiarism Detection Based on n-Grams Comparison
4) Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск.
5) Ilyinsky Sergey An efficient method to detect duplicates of Web documents with the use of inverted index.

Докладчик: Бабаков Александр

Зачет (24.12.2013, 18:00, 110 каб.)

Зачет для всех курсов начнется завтра, во вторник, 24 декабря, в 18:00. Обратите внимание, время начала сдвинуто на час раньше!

Регламент зачета следующий:

  1. выступления 3 курса,
  2. выступления 4 курса,
  3. выступления 5 курса,
  4. проставление зачетов тем, кто их заработал.

Формат выступлений был описан ранее.