Archive for Ноябрь, 2011

Кластеризация: K-means, C-means, Fuzzy c-means, иерархические методы (6.12.11)

Кластеризация (англ.clustering) – это автоматическое разбиение множества элементов на группы (кластеры) в зависимости от степени их схожести.
В докладе рассказывается о самом понятии кластеризации и её основных алгоритмах. Приводится классификация алгоритмов кластеризации и разновидности функции-метрики. Проводится обзор некоторых методов кластеризации: метод k-средних, k-medoids, метод нечеткой кластеризации (fuzzy c-means), иерархические алгоритмы.
Также освещаются достоинства и недостатки рассмотренных методов.

Докладчик: Агаев Нурлан

Материалы:

  • Data Clustering (A.K. JAIN, M.N. MURTY, P.J. FLYNN), 1999 [http://nd.edu/~flynn/papers/Jain-CSUR99.pdf]
  • A Comprehensive Overview of Basic Clustering Algorithms (Glenn Fung), 2001
  • Principles and Theory for Data Mining and Machine Learning (Bertrand Clarke, Ernest Fokou´e, Hao Helen Zhang)
  • Лекции по алгоритмам кластеризации и многомерного шкалирования (К. В. Воронцов), 2007

презентация семинара (pdf)

Коллаборативная фильтрация (29.11.11)

Коллаборативная фильтрация (англ. collaborative filtering) — группа методов, прогнозирующих интересы конкретного пользователя по собранной информации о вкусах и предпочтениях множества пользователей.

Методы коллаборативной фильтрации делятся на 2 типа:

  • основанные на сходстве пользователей или объектов
  • основанные на моделях.

Алгоритмы-представители каждого типа будут подробно рассмотрены в ходе доклада. Также будет рассказано о метриках качества, используемых для оценки алгоритмов рекомендаций, и о некоторых открытых проблемах.

Докладчик: Гомзин Андрей

Материалы:

презентация с семинара (pdf)

Facebook: обработка в реальном времени на Apache Hadoop (22.11.11)

Современные онлайн-приложения управляют огромными потоками данных, обработка которых с использованием лишь традиционных систем хранения и управления данными затруднена. Для эффективной работы таких приложений создано уже немало специализированных распределенных систем. Примером является стек технологий Apache Hadoop, который позволяет строить распределённые системы, выдерживающие высокие нагрузки. В частности, одна из таких систем построена и используется в Facebook для приложения Facebook Messages. В докладе рассмотрены основные технологий стека Apache Hadoop, а также изменения, внесенные в него инженерами Facebook для повышения стабильности и эффективности работы.

Докладчик: Константин Абакумов

Материалы:

Презентация с семинара (html)

Реализация алгоритма Витерби для Apache Mahout (15.11.11)

Доклад посвящен работе, проделанной в рамках программы Google Summer of Code 2011 для проекта Apache Mahout. Будут рассмотрены различные подходы к решению подобного рода задач, а также проблемы, возникающие при попытке использования парадигмы MapReduce для решения нестандартных задач.

Докладчик: Сергей Бартунов

Презентация с семинара (pdf)

Машины опорных векторов (8.11.11)

Машины Опорных Векторов — это семейство алгоритмов классификации вида «обучение с учителем». В докладе будут рассмотрены:

  • Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных,
  • SVM как задача квадратичного программирования,
  • Ядровые функции и ядровой переход.

Все необходимые теоремы и понятия алгебры и  оптимизации будут введены по ходу доклада.

Докладчик:  Алексей Сильвестров

Литература:

Презентация с семинара (pptx)