Кластеризация – задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластеризация является одной из фундаментальных задач в Data Mining и активно применяется в прогнозировании, анализе текстов, сегментации изображений и других областях.
В докладе рассматривается алгоритм кластеризации на основе отношения α-квазиэквивалентности и проводится сравнение его эффективности с классическими иерархическими алгоритмами, такими как Greedy Agglomerative/Divisive Clustering и Bisecting k-means, на синтетических наборах данных.

Докладчик: Максим Варламов

Материалы:

  1. Баргесян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
  2. Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007.
  3. A.K. Jain, M.N. Murty, P.J. Flynn. Data Clustering. 1999.
  4. Yaling Pei, Osmar Zaïane. A synthetic data generator for clustering and outlier analysis. 2006.

Презентация с семинара (pdf)