Author Archive

Коллаборативная фильтрация (29.11.11)

Коллаборативная фильтрация (англ. collaborative filtering) — группа методов, прогнозирующих интересы конкретного пользователя по собранной информации о вкусах и предпочтениях множества пользователей.

Методы коллаборативной фильтрации делятся на 2 типа:

  • основанные на сходстве пользователей или объектов
  • основанные на моделях.

Алгоритмы-представители каждого типа будут подробно рассмотрены в ходе доклада. Также будет рассказано о метриках качества, используемых для оценки алгоритмов рекомендаций, и о некоторых открытых проблемах.

Докладчик: Гомзин Андрей

Материалы:

презентация с семинара (pdf)

Facebook: обработка в реальном времени на Apache Hadoop (22.11.11)

Современные онлайн-приложения управляют огромными потоками данных, обработка которых с использованием лишь традиционных систем хранения и управления данными затруднена. Для эффективной работы таких приложений создано уже немало специализированных распределенных систем. Примером является стек технологий Apache Hadoop, который позволяет строить распределённые системы, выдерживающие высокие нагрузки. В частности, одна из таких систем построена и используется в Facebook для приложения Facebook Messages. В докладе рассмотрены основные технологий стека Apache Hadoop, а также изменения, внесенные в него инженерами Facebook для повышения стабильности и эффективности работы.

Докладчик: Константин Абакумов

Материалы:

Презентация с семинара (html)

Реализация алгоритма Витерби для Apache Mahout (15.11.11)

Доклад посвящен работе, проделанной в рамках программы Google Summer of Code 2011 для проекта Apache Mahout. Будут рассмотрены различные подходы к решению подобного рода задач, а также проблемы, возникающие при попытке использования парадигмы MapReduce для решения нестандартных задач.

Докладчик: Сергей Бартунов

Презентация с семинара (pdf)

Машины опорных векторов (8.11.11)

Машины Опорных Векторов — это семейство алгоритмов классификации вида «обучение с учителем». В докладе будут рассмотрены:

  • Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных,
  • SVM как задача квадратичного программирования,
  • Ядровые функции и ядровой переход.

Все необходимые теоремы и понятия алгебры и  оптимизации будут введены по ходу доклада.

Докладчик:  Алексей Сильвестров

Литература:

Презентация с семинара (pptx)

Распознавание и классификация именованных сущностей (1.11.11)

В докладе рассказывается о проблеме извлечения из текста и классификации именованных сущностей (named entity), некоторых методах их распознавания, приводятся наиболее часто используемые для этого признаки. Особое внимание уделено вопросу тегирования последовательностей и персептронному алгоритму.

Докладчик: Кристина Чуприна

Bibliography:

  • David Nadeau, Satoshi Sekine. A survey of named entity recognition and classification. 2007.
  • Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms. 2002.
  • Yoav Freund, Robert E. Schapire. Large Margin Classification Using the Perceptron Algorithm. 1998.

Презентация с семинара (pdf)

Извлечение информации из табличных данных (25.10.11)

Табличная запись является одним из наиболее частых способов представления структуры текстовой информации. В данном докладе рассматриваются методы как автоматического, так и автоматизированного извлечения информации из таблиц. Приводится обзор возникающих проблем, в частности — определение ориентации таблицы, обработка разрозненных заголовков и агрегирующих объектов, — предлагаются методы решения, основанные на эвристических подходах и машинном обучении. Также в докладе обозначаются проблемы, в том числе открытые, которые возникают при интерактивном взаимодействии эксперта с программным инструментом по обработке таблиц.

Докладчик:  Никита Астраханцев

Материалы:

Презентация с семинара (pdf)

Введение в информационный поиск (18.10.11)

В докладе рассказывается о базовых моделях информационного поиска: модель векторного пространства и взвешивание терминов по их степени важности на основе статистических данных. Рассматриваются модели ранжирования для случая текстовых документов и документов, содержащих метаданные.

Докладчик: Марина Макиенко

Материалы:

  • Christopher D. Manning, Prabhakar Raghavan “Introduction to information retrieval”,  Cambridge University Press. 2008. (Глава 6)

Презентация к семинару (pptx)

Меры семантической близости (11.10.11)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Презентация с семинара (pptx)

Организационный семинар (04.10.11)

Первый семинар в новом семестре состоится 4 октября 2011 в 19.00 в здании Института системного программирования РАН ауд. 110. На семинаре будут обсуждаться организационные вопросы, расписание докладов и распределение студентов 3-го курса по научным руководителям.

ВНИМАНИЕ: Студентам, распределенным на данный спец. семинар настоятельно рекомендуется посещать спецкурс «Введение в обработку текстов«.