Тематическое моделирование — способ построения модели коллекции текстовых документов, в которой определяется, к каким темам относится каждый из документов. Тематические модели позволяют эффективно решать такие задачи, как тематический поиск, классификация, реферирование коллекций документов и новостных потоков.
Доклад посвящен большому классу тематических моделей — вероятностным тематическим моделям. Будет показано преимущество этих моделей перед другими, более ранними. В ходе доклада будут рассмотрены основные принципы, а также наиболее известные примеры вероятностных тематических моделей:
- Latent Dirichlet Allocation (Скрытое размещение Дирихле)
- Hierarchical Latent Dirichlet Allocation (Иерархическое скрытое размещение Дирихле)
Также будет рассказано об оценке качества вероятностных тематических моделей.
Докладчик: Андрей Гомзин
Материалы:
- Mining Text Data (Springer) Ed. Charu Aggarwal, ChengXiang Zhai, March 2012. Chapters 5 and 8.
- Blei, David M. (April 2012). Introduction to Probabilistic Topic Models. Comm. ACM 55 (4): 77-84. [PDF]
- D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical topic models and the nested Chinese restaurant process. Neural Information Processing Systems 16, 2003 [PDF]
Comments are closed.