Author Archive

Определение места проживания пользователей социальных сетей на основе социального графа (22.11.2016).

Доклад посвящен определению основного места проживания пользователей социальных сетей. Будет рассказано про подходы, основанные на анализе социального графа – вероятностные модели, метод распространения меток, и подход основывающийся на graph node embeddings и алгоритмах машинного обучения.

Докладчик: Юлия Трофимович

Методы построения социо-демографических профилей пользователей сети интернет (15.11.2016)

Пользователи сети Интернет, взаимодействующие в социальных медиа, как правило, имеют публичные страницы, на которых они могут указывать персональную информацию, включая социо-демографические характеристики. К таким характеристикам относятся пол, возраст,семейное положение, уровень образования, профессия, трудоустроенность, национальность, место жительства и другие. Социо-демографический профиль пользователя — набор значений его социо-демографических атрибутов. По тем или иным причинам далеко не все атрибуты заполняются пользователями. Кроме того, иногда пользователи оставляют в своих профилях ложные сведения. Отсюда возникает задача предсказания неуказанных и неверно указанных социо-демографических атрибутов пользователей. Для определения значений демографических атрибутов пользователей используются различные открытые данные, такие как: тексты публичных сообщений пользователей, отношения дружбы между пользователями, подписки пользователей на сообщества, явно указанные значения атрибутов.

Социо-демографические профили пользователей активно используются в системах интернет-маркетинга и рекомендаций, где особую важность представляет целевая аудитория предлагаемого товара, услуги, информационного продукта. Явно указанные и предсказанные значения демографических атрибутов пользователей могут использоваться как для определения целевой аудитории конкретного продукта, так и для поиска потенциальных потребителей.

В рамках доклада будет рассмотрена задача построения социо-демографических профилей пользователей социальных сетей, будет описан подход к определению значений демографических атрибутов пользователей на примере социальной сети Вконтакте. Подход основан на построении социо-лингвистического графа и применения в нем метода распространения меток.

 

Докладчик: Андрей Гомзин

Как распознать фейковые новости? Применение теории риторической структуры текста (08.11.2016)

Проблема распознавания достоверности новостей является актуальной, особенно в настоящее время, в гетерогенном информационном поле. Поэтому необходимо разработать инструменты, которые позволили бы автоматически с использованием лингвистических методов и моделей определять достоверность или недостоверность новостей, опубликованных в интернет-СМИ.

На уровне дискурса в области автоматической обработки текста можно работать с текстами в рамках теории риторической структуры. Мы собрали корпус из достоверных и недостоверных новостей и разметили их по использованным типам риторических связей.

Для решения задачи классификации текстов и машинного обучения мы использовали Support Vector Machines (для линейного ядра и rbf-ядра) и Random Forest Classifier, для обоих классификаторов с кросс-валидацией 10-fold. В качестве признаков использовались типы риторических связей (частотность), а также сочетания типов связей (типы риторических связей+биграммы и типы риторических связей+триграммы), всего в эксперименте было использовано три набора данных. Лучшие результаты мы получили при классификации с помощью Support Vector Machines с линейным ядром для первого набора данных, он оказался лучше всего линейно разделим на два класса. Модель имеет предсказательную силу (0.65), превышающую показатели для схожего исследования для английского языка, а также показатели распознавания достоверности новостей людьми.

Докладчик: Дина Писаревская

Реализация современных методов извлечения терминологии на языке Scala (1.11.16)

Автоматическое извлечение терминологии используется для решения многих задач, связанных с обработкой текстов предметной области.
Однако существующие методы, как правило, показывают точность и полноту недостаточные для применения на практике. Более того, до сих пор отсутствует надежное экспериментальное сравнение разработанных методов. Одна из причин заключается в сложности реализации этих методов.
В докладе будет рассказно об открытой реализации современных методов извлечения терминологии на языке Scala и проведенном экспериментальном сравнении.

Докладчик: Никита Астраханцев

Нейронные сети для определения парафраза в русском языке (27.10.16)

В докладе планируется рассказать про решение конкурса по определению парафраза. Будут рассказаны типичные признаки для этой задачи и методы, позволяющие их эффективно использовать (в частности многослойный персептрон и “сиамские” нейронные сети).

Докладчик: Кирилл Скорняков

Внимание! Семинар состоится в четверг 27 октября. Начало в 18.00.

Выявление дубликатов изображений (25.10.16)

Задача выявления дубликатов это поиск разных версии одного и того же изображения, изображения которые не являются точными копиями на бинарном уровне, но могут быть визуально идентифицированы как одни и те же изображения повергшиеся различным трансформациям (масштабирование, смена точки съема…). Для выявления пар дубликатов был применен подход глубинного обучения. Для входной пары изображений вычисляются свойства (features) с помощью двух-башенной сверточной нейронной сети с разделяемыми весами. Вычисленные свойства передаются в метрическую сеть, где и проводится сравнение. Проведенные эксперименты показали применимость данного подхода к решению задачи поиска дубликатов изображений.

Докладчик: Манук Акопян

Распределение студентов по научным руководителям

  1. Берюхов Андрей, ВШЭ, 3 — Варламов, Разработка системы извлечения информации из веб-страниц по размеченным примерам
  2. Баранов Антон, ВШЭ, 3 — Чихрадзе, Анализ динамических свойств сообществ
  3. Егоров Николай, ВШЭ, 3 — Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет
  4. Репина Анастасия, ВШЭ, 3 — Андрианов, Построение множества (иерархии) категорий аспектов предметной области по отзывам
  5. Урнышев Евгений, ВШЭ, 3 — Майоров, Автоматический морфологический анализ текстов на русском/английском языках
  6. Аксенова Елена, ВМК, 3 — Борисенко, Исследование и разработка масштабируемого и отказоустойчивого сервиса идентификации для облачной среды
  7. Жаботинский Андрей, ВМК, 3 — Козлов, Реализация распределённого алгоритма представления вершин графа в векторном виде
  8. Портной Александр, ВМК, 3 — Гомзин, Рекомендация получателей групповых сообщений социальной сети Вконтакте
  9. Строев Вячеслав, ВМК, 3 — Турдаков, Синтаксический анализатор текста на основе деревьев зависимостей с использованием нейронных сетей
  10. Илларионов Андрей, ВМК, 5 — Варламов, Автоматическое извлечение метаданных научных статей с сайтов электронных библиотек
  11. Бабичев Антон, ВМК, 5 — Козлов, Извлечение информации о пользователе социальной сети на основе структуры социального графа
  12. Иконникова Мария, ВМК, 4 — Гомзин, Определение зависимых демографических атрибутов пользователей сети Интернет

UPDATE:

  1. Михаил Аксёнов, ВМК, 3 — Коршунов, Определение пользовательских ролей в онлайн-сообществах
  2. Айта Манджиев, ВМК, 3 — Недумов, Автоматическая оценка последовательности изложения научных текстов

Распределение тем курсовых и дипломов (27.09.16)

На семинаре 27 сентября 2016 состоится сбор по поводу распределения тем курсовых и знакомства студентов с их руководителями (если еще не знакомы).

Начало в 19:00 в 110 комнате (в ИСП РАН).

UPDATE: Каждый студент спецсеминара должен прислать минимум 3 темы в порядке убывания приоритета на адрес yaroslav.nedumov@ispras.ru

UPDATE2: И не забывайте написать как вас зовут, с какого вы курса и из какого ВУЗа.