Archive for Ноябрь, 2012

Вероятностные тематические модели (4.12.2012)

Тематическое моделирование — способ построения модели коллекции текстовых документов, в которой определяется, к каким темам относится каждый из документов. Тематические модели позволяют эффективно решать такие задачи, как тематический поиск, классификация, реферирование коллекций документов и новостных потоков.
Доклад посвящен большому классу тематических моделей — вероятностным тематическим моделям. Будет показано преимущество этих моделей перед другими, более ранними. В ходе доклада будут рассмотрены основные принципы, а также наиболее известные примеры вероятностных тематических моделей:

  • Latent Dirichlet Allocation (Скрытое размещение Дирихле)
  • Hierarchical Latent Dirichlet Allocation (Иерархическое скрытое размещение Дирихле)

Также будет рассказано об оценке качества вероятностных тематических моделей.

Докладчик: Андрей Гомзин

Материалы:

  1. Mining Text Data (Springer) Ed. Charu Aggarwal, ChengXiang Zhai, March 2012. Chapters 5 and 8.
  2. Blei, David M. (April 2012). Introduction to Probabilistic Topic Models. Comm. ACM 55 (4): 77-84. [PDF]
  3. D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical topic models and the nested Chinese restaurant process. Neural Information Processing Systems 16, 2003 [PDF]

Презентация с семинара

Проверка статистических гипотез для сравнения классификаторов (27.11.2012)

Проверка статистических гипотез — подход, позволяющий принимать решения, в отсутствии априорных знаний. Доклад описывает возможности применения этой техники для сравнения качества работы классификаторов.

В рамках доклада планируется ознакомить слушателей с основной терминологией статистического анализа, а так же продемонстрировать несколько критериев, полезных для сравнения классификаторов t-test и ранговый тест Вилкоксона).

Докладчик: Валерий Аванесов

Материалы:

  1. Frank Wilcoxon. Individual Comparisons by Ranking Methods. Biometrics Bulletin, Vol. 1, No. 6. (Dec., 1945), pp. 80-83. [PDF]
  2. Натан А.А., Горбачёв О.Г., Гуз С.А. Математическая статистика. Москва, МЗ Пресс, 2005.

Презентация с семинара

Новые подходы к применению распределённых вычислений для обработки больших данных (20.11.2012)

В докладе будет представлен обзор современных технологий для организации распределенных вычислений (таких как Hadoop, MapReduce, BSP, и др.), а также наиболее быстро развивающихся и интересных областей их применения. Детально будут рассмотрены два направления — анализ масштабных графов и обработка потоковых данных в реальном времени.

Докладчики: Константин Абакумов, Антон Коршунов

Материалы:

  1. Hadoop: The Definitive Guide, Second Edition
  2. Pregel: A System for Large-Scale Graph Processing
  3. Stom Tutorial

Презентация с семинара

Система обработки текстов Texterra (13.11.2012)

Texterra — разрабатываемый в ИСП РАН инструмент для обработки и семантического анализа текстов. В ходе доклада будут показаны некоторые возможности системы Texterra. Кроме того будут рассмотрены архитектура и принцип работы системы Texterra, а также один из способов получения базы знаний для нее.

Докладчик: Александр Бабаков

Материалы:

  1. Viktor Ivannikov, Denis Turdakov, Yaroslav Nedumov. Fast Text Annotation with Linked Data.  Eighth International Conference on Computer Science and Information Technologies 26 – 30 September, 2011, Yerevan, Armenia
  2. D. Turdakov. Word sense disambiguation methods. Programming and Computer Software, Vol. 36, Issue 6
  3. M. Grineva, M. Grinev, D. Lizorkin. Extracting Key Terms From Noisy and Multitheme Documents. WWW2009: 18th International World Wide Web Conference

Презентация с семинара

Семантический поиск (6.11.2012)

Семантический поиск – это метод информационного поиска, в котором релевантность документа запросу определяется семантически, а не синтаксически.
В докладе будут рассмотрены два подхода к организации семантического поиска:

  • классический поиск, но основанный на концепциях документа (а не на словах или терминах);
  • поиск, основанный на структурированных запросах.

Докладчик: Андрей Сысоев

Материалы

  1. G. Kasneci, F.M. Suchanek, G. Ifrim, M. Ramanath, G. Weikum. NAGA: Searching and Ranking Knowledge, 2008.
  2. F. Giunchiglia, U. Kharkevich, I. Zaihrayeu. Concept Search, 2009.

Презентация с семинара