Archive for Ноябрь, 2010

Языковые модели (7.12.10)

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.)

Докладчик: Федоренко Денис

Материалы:

  • Jurafsky D., Martin G.H. Speech and Language Processing
  • Y.H. Witten and T.C. Bell. The Zero-Frequency Problem: Estimating the Probabilities of Novel Events in Adaptive Text Compression.

Презентация с семинара (ppt)

Распределённые хэш-таблицы на примере NoSQL СУБД Cassandra (30.11.10)

Доклад посвящен системе Cassandra — распределенной Key/value СУБД,
специально созданной Facebook для покрытия основных требований этой
наиболее популярной соц. сети: устойчивость к сбоям отдельных
серверов, надежность, быстрота, простота масштабируемости. Будет
рассказано об особенностях архитектуры всей системы в целом, а также о
специфике работы использующихся в системе алгоритмов, обеспечивающих
её быстроту и надежность. В докладе дополнительно будет рассмотрен
принцип работы приложений Facebook с системой Cassandra на примере
Facebook Inbox Search.

Докладчик: Сиващенко Дмитрий

Материалы:

  • Avinash Lakshman, Prashant Malik. Cassandra — A Decentralized Structured Storage System. (pdf)
  • Frank Dabek. A Distributed Hash Table. PhD thesis. (pdf)

Презентация с семинара (pdf)

Обзор методов морфологического разбора русского языка (23.11.10)

Морфологический анализ — важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества морфологического разбора.

Докладчик: Бартунов Сергей

Материалы:

Презентация с семинара (pdf)

XRank: Ранжированный поиск ключевых слов в коллекциях XML документов (16.11.10)

В докладе рассказывается о методе ранжированного поиска в коллекциях XML-документов Xrank. Xrank — это адаптированный к XML алгоритм ссылочного ранжирования Pagerank для HTML. Также в докладе рассматриваются методы улучшенной обработки запросов XML-поиска: такие как использовани DIL, RDIL, HDIL.

Докладчик: Зуев Анатолий.

Материалы:

презентация с семинара (pptx)

Определение параграфов в тексте (09.11.10)

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy).

Докладчик: Сильвестров Алексей

Материалы:

Презентация с семинара (ppt)