Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Социальный граф содержит много информации о пользователях социальных сетей и
может быть использован для определения демографических атрибутов, определения
основного мест проживания и выявления ботов. Однако использование графа затруднено т.к. большинство алгоритмов классификации и регрессии не способны работать с графом непосредственно.
Для того, чтобы использовать стандартные методы машинного обучения можно
представить вершины графа в виде векторов небольшой размерности. О методах представления вершин графа в векторном виде будет рассказано на  семинаре.

Докладчик: Илья Козлов

Доклад посвящен определению основного места проживания пользователей социальных сетей.  Будет рассказано про подходы, основанные на анализе социального графа – вероятностные модели, метод распространения меток, и подход основывающийся на graph node embeddings и алгоритмах машинного обучения.

Докладчик: Юлия Трофимович

Пользователи сети Интернет, взаимодействующие в социальных медиа, как правило, имеют публичные страницы, на которых они могут указывать персональную информацию, включая социо-демографические характеристики. К таким характеристикам относятся пол, возраст,семейное положение, уровень образования, профессия, трудоустроенность, национальность, место жительства и другие. Социо-демографический профиль пользователя — набор значений его социо-демографических атрибутов. По тем или иным причинам далеко не все атрибуты заполняются пользователями. Кроме того, иногда пользователи оставляют в своих профилях ложные сведения. Отсюда возникает задача предсказания неуказанных и неверно указанных социо-демографических атрибутов пользователей. Для определения значений демографических атрибутов пользователей используются различные открытые данные, такие как: тексты публичных сообщений пользователей, отношения дружбы между пользователями, подписки пользователей на сообщества, явно указанные значения атрибутов.

Социо-демографические профили пользователей активно используются в системах интернет-маркетинга и рекомендаций, где особую важность представляет целевая аудитория предлагаемого товара, услуги, информационного продукта. Явно указанные и предсказанные значения демографических атрибутов пользователей могут использоваться как для определения целевой аудитории конкретного продукта, так и для поиска потенциальных потребителей.

В рамках доклада будет рассмотрена задача построения социо-демографических профилей пользователей социальных сетей, будет описан подход к определению значений демографических атрибутов пользователей на примере социальной сети Вконтакте. Подход основан на построении социо-лингвистического графа и применения в нем метода распространения меток.

 

Докладчик: Андрей Гомзин

Проблема распознавания достоверности новостей является актуальной, особенно в настоящее время, в гетерогенном информационном поле. Поэтому необходимо разработать инструменты, которые позволили бы автоматически с использованием лингвистических методов и моделей определять достоверность или недостоверность новостей, опубликованных в интернет-СМИ.

На уровне дискурса в области автоматической обработки текста можно работать с текстами в рамках теории риторической структуры. Мы собрали корпус из достоверных и недостоверных новостей и разметили их по использованным типам риторических связей.

Для решения задачи классификации текстов и машинного обучения мы использовали Support Vector Machines (для линейного ядра и rbf-ядра) и Random Forest Classifier, для обоих классификаторов с кросс-валидацией 10-fold. В качестве признаков использовались типы риторических связей (частотность), а также сочетания типов связей (типы риторических связей+биграммы и типы риторических связей+триграммы), всего в эксперименте было использовано три набора данных. Лучшие результаты мы получили при классификации с помощью Support Vector Machines с линейным ядром для первого набора данных, он оказался лучше всего линейно разделим на два класса. Модель имеет предсказательную силу (0.65), превышающую показатели для схожего исследования для английского языка, а также показатели распознавания достоверности новостей людьми.

Докладчик: Дина Писаревская

Презентация: pptx

Автоматическое извлечение терминологии используется для решения многих задач, связанных с обработкой текстов предметной области.
Однако существующие методы, как правило, показывают точность и полноту недостаточные для применения на практике. Более того, до сих пор отсутствует надежное экспериментальное сравнение разработанных методов. Одна из причин заключается в сложности реализации этих методов.
В докладе будет рассказно об открытой реализации современных методов извлечения терминологии на языке Scala и проведенном экспериментальном сравнении.

Докладчик: Никита Астраханцев

В докладе планируется рассказать про решение конкурса по определению парафраза. Будут рассказаны типичные признаки для этой задачи и методы, позволяющие их эффективно использовать (в частности многослойный персептрон и “сиамские” нейронные сети).

Докладчик: Кирилл Скорняков

Внимание! Семинар состоится в четверг 27 октября. Начало в 18.00.

Задача выявления дубликатов это поиск разных версии одного и того же изображения, изображения которые не являются точными копиями на бинарном уровне, но могут быть визуально идентифицированы как одни и те же изображения повергшиеся различным трансформациям (масштабирование, смена точки съема…). Для выявления пар дубликатов был применен подход глубинного обучения. Для входной пары изображений вычисляются свойства (features) с помощью двух-башенной сверточной нейронной сети с разделяемыми весами. Вычисленные свойства передаются в метрическую сеть, где и проводится сравнение. Проведенные эксперименты показали применимость данного подхода к решению задачи поиска дубликатов изображений.

Докладчик: Манук Акопян

Презентация: pdf

Сегодня для тестирования средств анализа данных востребованы генераторы случайных графов. Одним из таких генераторов является CKB, использующий модель социальной сети с сообществами пользователей. В этой модели поддерживается ряд важных свойств структуры социальных сообществ: плотные пересечения сообществ, суперлинейный рост количества ребер внутри сообщества, а также степенной закон распределения размеров сообществ и количества сообществ, которым принадлежит пользователь. Однако последние исследования показывают, что для некоторых графов характерно DPLN-распределение количества сообществ, к которым принадлежит пользователь. И алгоритм CKB не учитывает данную особенность.

Double Pareto LogNormal распределение показывает логнормальное поведение с двумями степенными хвостами. Оно оказалось удачным в моделировании различных компьютерных, социальных сетей, в экономике и финансах.

В докладе будет описан способ генерации степенных последовательностей с DPLN-распределением, а также показана схема генерации случайных графов с таким распределением с использованием фрэймворка Apache Spark.

Докладчик: Иван Малышев

Презентация: pdf

Сегодня на семинаре будет продемонстрирована альфа-версия системы поддержки проведения исследований ReCol/SciGraph.

Докладчик: Ярослав Недумов

  1. Берюхов Андрей, ВШЭ, 3 – Варламов, Разработка системы извлечения информации из веб-страниц по размеченным примерам
  2. Баранов Антон, ВШЭ, 3 – Чихрадзе, Анализ динамических свойств сообществ
  3. Егоров Николай, ВШЭ, 3 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет
  4. Репина Анастасия, ВШЭ, 3 – Андрианов, Построение множества (иерархии) категорий аспектов предметной области по отзывам
  5. Урнышев Евгений, ВШЭ, 3 – Майоров, Автоматический морфологический анализ текстов на русском/английском языках
  6. Аксенова Елена, ВМК, 3 – Борисенко, Исследование и разработка масштабируемого и отказоустойчивого сервиса идентификации для облачной среды
  7. Жаботинский Андрей, ВМК, 3 – Козлов, Реализация распределённого алгоритма представления вершин графа в векторном виде
  8. Портной Александр, ВМК, 3 – Гомзин, Рекомендация получателей групповых сообщений социальной сети Вконтакте
  9. Строев Вячеслав, ВМК, 3 – Турдаков, Синтаксический анализатор текста на основе деревьев зависимостей с использованием нейронных сетей
  10. Илларионов Андрей, ВМК, 5 – Варламов, Автоматическое извлечение метаданных научных статей с сайтов электронных библиотек
  11. Бабичев Антон, ВМК, 5 – Козлов, Извлечение информации о пользователе социальной сети на основе структуры социального графа
  12. Иконникова Мария, ВМК, 4 – Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет

UPDATE:

  1. Михаил Аксёнов, ВМК, 3 – Коршунов, Определение пользовательских ролей в онлайн-сообществах
  2. Айта Манджиев, ВМК, 3 – Недумов, Автоматическая оценка последовательности изложения научных текстов