Мультиязычные системы для автоматического реферирования (13.03.12)

Выделение главных мыслей в виде реферата или конспекта интересовало человечество со времен появления письменности. С появлением интернета тема приобрела новую актуальность, так как нынешние объемы информации огромны и постоянно возрастают. Существует множество областей, в которых применение такого, сокращенного представления давало бы существенный выигрыш. Например, система может быть полезна для человека, который должен по большому количеству статьей на определенную тему быстро получить представление о данной области. Автоматическое реферирование также можно использовать в поисковых системах для того, чтобы уменьшать область поиска.
Рефераты бывают нескольких типов: информативные, индикативные и критические. Индикативные рефераты должны предоставлять достаточно информации для принятия решения, стоит ли обращаться к оригиналу. Информативные рефераты должны сжимать исходный текст. Критические рефераты не только сокращают, но и дают оценку тексту.
Существует два основных подхода к автоматическому реферированию. Первый подход ориентирован на извлечение важных фрагментов, обычно предложений так называемый sentence extraction. Второй подход использует сложные методы семантического и лингвистического анализа, обычно это генерация рефератов (summary generation) на основе семантического представления текста.

Особый интерес представляет тестирование разных методов. Ручная проверка является через чур дорогой, требующей порядка 3000 человеко-часов на каждую систему. Автоматические проверки осложняются тем, что даже написанные разными людьми резюме одного текста, может сильно отличатся. В настоящее время, системой тестирования «дэ факто» является ROGUE. ROGUE сравнивает для каждого документа, из тестового набора, резюме полученной системой, с несколькими вручную сделанными резюме.

Докладчик: Борис Павлович

Материалы:

  1. Mani, I. and Maybury, M. (editors) (1999) Advances in Automatic Text Summarization // MI T Press.
  2. Hans Peter Luhn. 1958. The automatic creation of literature abstracts // IBM Journal of Research and Development, 2(2), 159-165
  3. Яцко В.А. Симметричное реферирование: теоретические основы и методика // НТИ. Сер.2. 2002. № 5. С.18-28.
  4. Tibor Kiss and Jan Strunk. 2006. Unsupervised multilingual sentence boundary detection // Computational Linguistics, 32(4):485–525.
  5. Dunning, Ted. 1993. Accurate methods for the statistics of surprise and coincidence // Computational Linguistics, 19(1):61–74.
  6. Riley, Michael D. 1989. Some applications of tree-based modeling to speech and language indexing // In Proceedings of the DARPA Speech and Natural Language Workshop, pages 339–352, Cape Cod, Massachusetts.
  7. Müller, Hans, V. Amerl, and G. Natalis. 1980. Worter kennungs verfahren als Grundlageeiner Universal methode zur automatischen Segmentierung von Texten in Sätze. Ein Verfahren zur maschinellen Satz grenzen bestimmung im Englischen // SpracheundDatenverarbeitung, 4(1):46–64.
  8. Stanley F. Chenand Joshua T. Goodman. 1998. An empirical study of smoothing techniques for language modeling // Technical Report TR-10-98, Harvard University.

презентация с семинара (pptx)

Comments are closed.