Archive for Март, 2012

Разработка наукометрического индекса, устойчивого к спаму (27.03.12)

Доклад посвящен задаче ранжирования исследователей при помощи анализа их публикаций.
Будут рассмотрены существующие решения, такие как импакт-фактор, индекс Хирша(h-индекс) и m-индекс, будут освещены их достоинства и недостатки.
Кроме того, в докладе будет рассмотрен новый алгоритм ранжирования, основанный на анализе направленного графа связей между публикациями.

Докладчик: Александр Пироженко

Материалы:

  1. Adler, R., Ewing, J., & Taylor, P. C. (2009). Citation statistics: a report from the International Mathematical Union (IMU) in cooperation with the International Council of Industrial and Applied Mathematics (ICIAM) and the Institute of Mathematical Statistics (IMS). Statist. Sci. , 1-14.
  2. Campbell, P. (2008). Escape from the impact factor. Ethics in Science and Environmental , 5-7.
  3. Kleinberg, J. (1999). Authoritative sources in a hyperlinked environment. JACM , 604-632.
  4. Lawrence, P. A. (2008). Lost in publication: how measurement harms science. Ethics in Science and Environmental Politics , 9-11.

презентация с семинара (pptx)

Извлечение отношений из текста (20.03.12)

Доклад посвящен задаче извлечения отношений из текста с целью восстановления значений атрибутов в частично заполненных отношениях (кортежах). Задача восстановления заключается в том, чтобы найти значения для таких атрибутов, удовлетворяющие исходному отношению. Поиск значений атрибутов осуществляется в текстовой коллекции на основе связей, полученных с помощью обучающих данных — кортежей, удовлетворяющих исходному отношению, в которых известны все значения атрибутов. В качестве примера может быть рассмотрена задача восстановить пропущенное значение в кортеже «Google — ?» на основе кортежей «Microsoft — Redmond» и «IBM — Armonk».
В докладе рассматриваются существующие системы извлечения отношений из текста (DIPRE, Snowball), а также собственная реализация системы, ориентированная на восстановление строк с пропущенными атрибутами.

Докладчик: Денис Федоренко

Материалы:

  1. Nguyen Bach, Sameer Badaskar. A Survey on relation extraction (http://www.cs.cmu.edu/~nbach/papers/A-survey-on-Relation-Extraction-Slides.pdf)
  2. Sergey Brin. Extracting Patterns and Relations from the World Wide Web (http://ilpubs.stanford.edu:8090/421/1/1999-65.pdf)
  3. Eugene Agichtein, Luis Gravano. Snowball: Extracting Relations from Large Plain-Text Collections (http://www.mathcs.emory.edu/~eugene/papers/dl00.pdf)

презентация с семинара (pdf)

Мультиязычные системы для автоматического реферирования (13.03.12)

Выделение главных мыслей в виде реферата или конспекта интересовало человечество со времен появления письменности. С появлением интернета тема приобрела новую актуальность, так как нынешние объемы информации огромны и постоянно возрастают. Существует множество областей, в которых применение такого, сокращенного представления давало бы существенный выигрыш. Например, система может быть полезна для человека, который должен по большому количеству статьей на определенную тему быстро получить представление о данной области. Автоматическое реферирование также можно использовать в поисковых системах для того, чтобы уменьшать область поиска.
Рефераты бывают нескольких типов: информативные, индикативные и критические. Индикативные рефераты должны предоставлять достаточно информации для принятия решения, стоит ли обращаться к оригиналу. Информативные рефераты должны сжимать исходный текст. Критические рефераты не только сокращают, но и дают оценку тексту.
Существует два основных подхода к автоматическому реферированию. Первый подход ориентирован на извлечение важных фрагментов, обычно предложений так называемый sentence extraction. Второй подход использует сложные методы семантического и лингвистического анализа, обычно это генерация рефератов (summary generation) на основе семантического представления текста.

Особый интерес представляет тестирование разных методов. Ручная проверка является через чур дорогой, требующей порядка 3000 человеко-часов на каждую систему. Автоматические проверки осложняются тем, что даже написанные разными людьми резюме одного текста, может сильно отличатся. В настоящее время, системой тестирования «дэ факто» является ROGUE. ROGUE сравнивает для каждого документа, из тестового набора, резюме полученной системой, с несколькими вручную сделанными резюме.

Докладчик: Борис Павлович

Материалы:

  1. Mani, I. and Maybury, M. (editors) (1999) Advances in Automatic Text Summarization // MI T Press.
  2. Hans Peter Luhn. 1958. The automatic creation of literature abstracts // IBM Journal of Research and Development, 2(2), 159-165
  3. Яцко В.А. Симметричное реферирование: теоретические основы и методика // НТИ. Сер.2. 2002. № 5. С.18-28.
  4. Tibor Kiss and Jan Strunk. 2006. Unsupervised multilingual sentence boundary detection // Computational Linguistics, 32(4):485–525.
  5. Dunning, Ted. 1993. Accurate methods for the statistics of surprise and coincidence // Computational Linguistics, 19(1):61–74.
  6. Riley, Michael D. 1989. Some applications of tree-based modeling to speech and language indexing // In Proceedings of the DARPA Speech and Natural Language Workshop, pages 339–352, Cape Cod, Massachusetts.
  7. Müller, Hans, V. Amerl, and G. Natalis. 1980. Worter kennungs verfahren als Grundlageeiner Universal methode zur automatischen Segmentierung von Texten in Sätze. Ein Verfahren zur maschinellen Satz grenzen bestimmung im Englischen // SpracheundDatenverarbeitung, 4(1):46–64.
  8. Stanley F. Chenand Joshua T. Goodman. 1998. An empirical study of smoothing techniques for language modeling // Technical Report TR-10-98, Harvard University.

презентация с семинара (pptx)

Artificial General Intelligence (06.03.12)

Доклад рассказывает об Artificial General Intelligence (AGI), относительно недавно оформившейся поддисциплине Искусственного Интеллекта. Главная задача AGI — построение полноценного, насколько это возможно, универсального, человекоподобного интеллекта (в отличие от мейнстрима ИИ, занимающегося решением отдельных задач и разработкой узких методов, не охватывающих интеллект в целом).

Докладчик: Иван Белобородов

Материалы:

  1. Pei Wang, Ben Goertzel. Introduction: Aspects of Artificial General Intelligence (в Advances in Artificial General Intelligence: Concepts, Architectures and Algorithms (Proceedings of the AGI Workshop 2006), IOS Press, 2007).
  2. Artificial General Intelligence. Ben Goertzel, Cassio Pennachin (Eds.). Springer-Verlag, 2007.

Презентация с семинара (pdf)