Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Проблема распознавания достоверности новостей является актуальной, особенно в настоящее время, в гетерогенном информационном поле. Поэтому необходимо разработать инструменты, которые позволили бы автоматически с использованием лингвистических методов и моделей определять достоверность или недостоверность новостей, опубликованных в интернет-СМИ.

На уровне дискурса в области автоматической обработки текста можно работать с текстами в рамках теории риторической структуры. Мы собрали корпус из достоверных и недостоверных новостей и разметили их по использованным типам риторических связей.

Для решения задачи классификации текстов и машинного обучения мы использовали Support Vector Machines (для линейного ядра и rbf-ядра) и Random Forest Classifier, для обоих классификаторов с кросс-валидацией 10-fold. В качестве признаков использовались типы риторических связей (частотность), а также сочетания типов связей (типы риторических связей+биграммы и типы риторических связей+триграммы), всего в эксперименте было использовано три набора данных. Лучшие результаты мы получили при классификации с помощью Support Vector Machines с линейным ядром для первого набора данных, он оказался лучше всего линейно разделим на два класса. Модель имеет предсказательную силу (0.65), превышающую показатели для схожего исследования для английского языка, а также показатели распознавания достоверности новостей людьми.

Докладчик: Дина Писаревская

Автоматическое извлечение терминологии используется для решения многих задач, связанных с обработкой текстов предметной области.
Однако существующие методы, как правило, показывают точность и полноту недостаточные для применения на практике. Более того, до сих пор отсутствует надежное экспериментальное сравнение разработанных методов. Одна из причин заключается в сложности реализации этих методов.
В докладе будет рассказно об открытой реализации современных методов извлечения терминологии на языке Scala и проведенном экспериментальном сравнении.

Докладчик: Никита Астраханцев

В докладе планируется рассказать про решение конкурса по определению парафраза. Будут рассказаны типичные признаки для этой задачи и методы, позволяющие их эффективно использовать (в частности многослойный персептрон и “сиамские” нейронные сети).

Докладчик: Кирилл Скорняков

Внимание! Семинар состоится в четверг 27 октября. Начало в 18.00.

Задача выявления дубликатов это поиск разных версии одного и того же изображения, изображения которые не являются точными копиями на бинарном уровне, но могут быть визуально идентифицированы как одни и те же изображения повергшиеся различным трансформациям (масштабирование, смена точки съема…). Для выявления пар дубликатов был применен подход глубинного обучения. Для входной пары изображений вычисляются свойства (features) с помощью двух-башенной сверточной нейронной сети с разделяемыми весами. Вычисленные свойства передаются в метрическую сеть, где и проводится сравнение. Проведенные эксперименты показали применимость данного подхода к решению задачи поиска дубликатов изображений.

Докладчик: Манук Акопян

Сегодня на семинаре будет продемонстрирована альфа-версия системы поддержки проведения исследований ReCol/SciGraph.

Докладчик: Ярослав Недумов

  1. Берюхов Андрей, ВШЭ, 3 – Варламов, Разработка системы извлечения информации из веб-страниц по размеченным примерам
  2. Баранов Антон, ВШЭ, 3 – Чихрадзе, Анализ динамических свойств сообществ
  3. Егоров Николай, ВШЭ, 3 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет
  4. Репина Анастасия, ВШЭ, 3 – Андрианов, Построение множества (иерархии) категорий аспектов предметной области по отзывам
  5. Урнышев Евгений, ВШЭ, 3 – Майоров, Автоматический морфологический анализ текстов на русском/английском языках
  6. Аксенова Елена, ВМК, 3 – Борисенко, Исследование и разработка масштабируемого и отказоустойчивого сервиса идентификации для облачной среды
  7. Жаботинский Андрей, ВМК, 3 – Козлов, Реализация распределённого алгоритма представления вершин графа в векторном виде
  8. Портной Александр, ВМК, 3 – Гомзин, Рекомендация получателей групповых сообщений социальной сети Вконтакте
  9. Строев Вячеслав, ВМК, 3 – Турдаков, Синтаксический анализатор текста на основе деревьев зависимостей с использованием нейронных сетей
  10. Илларионов Андрей, ВМК, 5 – Варламов, Автоматическое извлечение метаданных научных статей с сайтов электронных библиотек
  11. Бабичев Антон, ВМК, 5 – Козлов, Извлечение информации о пользователе социальной сети на основе структуры социального графа
  12. Иконникова Мария, ВМК, 4 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет

UPDATE:

  1. Михаил Аксёнов, ВМК, 3 – Коршунов, Определение пользовательских ролей в онлайн-сообществах
  2. Айта Манджиев, ВМК, 3 – Недумов, Автоматическая оценка последовательности изложения научных текстов

Семинар 04.10.2016 отменен по просьбе докладчика. Следующий семинар состоится во вторник 11.10.2016.

На семинаре 27 сентября 2016 состоится сбор по поводу распределения тем курсовых и знакомства студентов с их руководителями (если еще не знакомы).

Начало в 19:00 в 110 комнате (в ИСП РАН).

UPDATE: Каждый студент спецсеминара должен прислать минимум 3 темы в порядке убывания приоритета на адрес yaroslav.nedumov@ispras.ru

UPDATE2: И не забывайте написать как вас зовут, с какого вы курса и из какого ВУЗа.

Доклад является продолжением осеннего доклада про задачу сопоставления сущностей.

В этой части будет кратко рассказано об активном обучении (active learning) вообще и о его применении к задаче сопоставления сущностей.

Активное обучение – подобласть исследований в рамках машинного обучения, объединяющая методы активного выбора точек для добавления в обучающий набор. Из-за высокой зависимости задачи сопоставления сущностей от конкретной предметной области создание переиспользуемых обучающих наборов практически невозможно. По этой причине применение методов активного обучения выглядит перспективным и должно позволить применять для решения задачи сопоставления сущностей автоматические классификаторы.

Отдельная проблема при использовании методов активного обучения – это качество ответов эксперта. Так как общий объем обучающей выборки сравнительно небольшой, а входящие в нее элементы максимально важны для построения качественного классификатора, то возможные ошибки при их разметке могут пагубно отразиться на качестве итогового классификатора.

В ходе выполненного проекта мы изучили несколько существующих методов активного обучения, разработали свой, а также исследовали его зависимость от ошибок в ответах эксперта.

Докладчик: Ярослав Недумов

На просеминаре для студентов ВМК МГУ в пятницу 8 апреля будет рассказано про некоторые направления работ в отделе Информационных систем ИСП РАН.

Место ВМК МГУ, 508 ауд., начало в 16:20.

Презентация: pdf