Posts Tagged ‘Сысоев Андрей’

Коллаборативная фильтрация (29.11.11)

Коллаборативная фильтрация (англ. collaborative filtering) — группа методов, прогнозирующих интересы конкретного пользователя по собранной информации о вкусах и предпочтениях множества пользователей.

Методы коллаборативной фильтрации делятся на 2 типа:

  • основанные на сходстве пользователей или объектов
  • основанные на моделях.

Алгоритмы-представители каждого типа будут подробно рассмотрены в ходе доклада. Также будет рассказано о метриках качества, используемых для оценки алгоритмов рекомендаций, и о некоторых открытых проблемах.

Докладчик: Гомзин Андрей

Материалы:

презентация с семинара (pdf)

Модели распределенной обработки данных (29.03.11)

MapReduce — это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce — первой реализации модели MapReduce, и об Apache Hadoop — реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere.

Докладчик: Гомзин Андрей

Материалы:

MapReduce, Sawzall:
MapReduce: Simplified Data Processing on Large Cluster
Interpreting the Data: Parallel Analysis with Sawzall

Apache Hadoop:
Hadoop: The Definitive Guide (глава 6)

Sector/Sphere:
Sector and Sphere: the design and implementation of a high-performance data cloud
Дополнительно: Processing Massive Sized Graphs Using Sector/Sphere

Microsoft Dryad:
Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks
DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language

Презентация с семинара

Методы оценки близости строк (26.10.10)

В докладе рассматриваются различные строковые метрики — функции, вычисляющие близость текстовых строк, — и их приложения. Приводится сравнительная характеристика строковых метрик в задаче сопоставления имен собственных, на примере польского языка.

Докладчик: Кривошеева Татьяна

Материалы:

  • Usability of String Distance Metrics for Name Matching Tasks in Polish (pdf)
  • Методы и алгоритмы вычислений на строках (глава 2) (pdf)

Презентация с семинара (ppt)

Методы обогащения текстовых коллекций ссылками (30.03.10)

В докладе рассматриваются способы нахождения ссылок и связей в большом объеме цифровой литературы. В первой части доклада рассказывается об основных проблемах, связанных с обработкой большого количества информации и выделением в ней связей. Во второй части описываются методы решения этих проблем и приводятся результаты их экспериментальной оценки. Рассмотренные методы выделения связей используются в проекте Google Book Search.

Докладчик: Рязанцев Дмитрий.

Материалы:

Отменен