Тематическое моделирование — способ построения модели коллекции текстовых документов, в которой определяется, к каким темам относится каждый из документов. Тематические модели позволяют эффективно решать такие задачи, как тематический поиск, классификация, реферирование коллекций документов и новостных потоков.
Доклад посвящен большому классу тематических моделей – вероятностным тематическим моделям. Будет показано преимущество этих моделей перед другими, более ранними. В ходе доклада будут рассмотрены основные принципы, а также наиболее известные примеры вероятностных тематических моделей:

  • Latent Dirichlet Allocation (Скрытое размещение Дирихле)
  • Hierarchical Latent Dirichlet Allocation (Иерархическое скрытое размещение Дирихле)

Также будет рассказано об оценке качества вероятностных тематических моделей.

Докладчик: Андрей Гомзин

Материалы:

  1. Mining Text Data (Springer) Ed. Charu Aggarwal, ChengXiang Zhai, March 2012. Chapters 5 and 8.
  2. Blei, David M. (April 2012). Introduction to Probabilistic Topic Models. Comm. ACM 55 (4): 77-84. [PDF]
  3. D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical topic models and the nested Chinese restaurant process. Neural Information Processing Systems 16, 2003 [PDF]

Презентация с семинара