Кластеризация — задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластеризация является одной из фундаментальных задач в Data Mining и активно применяется в прогнозировании, анализе текстов, сегментации изображений и других областях.
В докладе рассматривается алгоритм кластеризации на основе отношения α-квазиэквивалентности и проводится сравнение его эффективности с классическими иерархическими алгоритмами, такими как Greedy Agglomerative/Divisive Clustering и Bisecting k-means, на синтетических наборах данных.
Докладчик: Максим Варламов
Материалы:
- Баргесян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
- Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007.
- A.K. Jain, M.N. Murty, P.J. Flynn. Data Clustering. 1999.
- Yaling Pei, Osmar Zaïane. A synthetic data generator for clustering and outlier analysis. 2006.
Презентация с семинара (pdf)