Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy).
Докладчик: Сильвестров Алексей
Материалы:
- C. Sporleder, M. Lapata. Automatic Paragraph Identification: A Study across Languages and Domains. EMNLP 2004 (http://ilk.uvt.nl/~caroline/papers/SporlederLapata.pdf)
- D. Genzel, E.Charniak Variation of Entropy and Parse Trees of Sentences as a Function of the Sentence Number.EMNLP 2003 (http://acl.ldc.upenn.edu/W/W03/W03-1009.pdf)
- Joshua Goodman, Eugene Charniak. The State of the Art in Language Modeling. AAAI, 2002 (http://www.research.microsoft.com/~joshuago/lm-tutorial-v8.ppt)
Презентация с семинара (ppt)