Posts Tagged ‘Варламов Максим’

Расчет семантической близости концепций с использованием связей в графе ссылок Википедии (08.04.14)

Под семантической близостью концепций или текстов понимают меру, отражающую степень их смысловой связанности. Методы расчета семантической близости находят применение в задачах дизамбигуации, классификации и кластеризации текстов, разрешения кореферентности, фасет-навигации и многих других.

В связи с ростом популярности использования Википедии как базы знаний для различных приложений обработки текстов и, в частности, для расчёта семантической близости между концепциями, важно как можно более полно использовать содержащуюся в ней информацию о концепциях и связях между ними.

Данный доклад посвящен оценке семантической близости концепций с использованием длины кратчайшего пути между соответствующими им статьями в графе ссылок/категорий Википедии. Учитываются различные типы ссылок между концепциями. Методы на основе кратчайших путей сравниваются с мерой Дайса, используемой в системе Текстерра, как с помощью пар концепций, размеченных экспертными оценками близости, так и in vivo на примере задаче дизамбигуации.

Докладчик: Максим Варламов

Презентация (pdf)

Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных (16.10.12)

Кластеризация — задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластеризация является одной из фундаментальных задач в Data Mining и активно применяется в прогнозировании, анализе текстов, сегментации изображений и других областях.
В докладе рассматривается алгоритм кластеризации на основе отношения α-квазиэквивалентности и проводится сравнение его эффективности с классическими иерархическими алгоритмами, такими как Greedy Agglomerative/Divisive Clustering и Bisecting k-means, на синтетических наборах данных.

Докладчик: Максим Варламов

Материалы:

  1. Баргесян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
  2. Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007.
  3. A.K. Jain, M.N. Murty, P.J. Flynn. Data Clustering. 1999.
  4. Yaling Pei, Osmar Zaïane. A synthetic data generator for clustering and outlier analysis. 2006.

Презентация с семинара (pdf)