Posts Tagged ‘Турдаков Денис’

Методы сжатия веб-графа (16.03.10)

В докладе рассматриваются специальные способы представления Веб-графа, а также эффективные методы его сжатия, реализованные в библиотеке WebGraph, которые основаны на техниках, применяемых при полнотекстовом индексировании. Данные методы используют особые свойства и эмпирические закономерности, наблюдаемые на веб-графе, и позволяют не только добиться значительного уровня сжатия, но и обеспечить эффективный доступ к графу.

Докладчик: Бартунов Сергей.

Материалы:

Презентация с семинара (pdf)

Методы поиска и классификации именованных сущностей (NERC) — 09.03.10

В докладе делается обзор  исследований в области поиска и классификации именованных сущностей (Named entity recognition and classification) за последние 14 лет, от эвристик и созданных вручную правил  до методов машинного обучения. Кратко рассказано об использующихся методах оценки точности и полноты алгоритмов. В заключении  рассматривается система Nymble, основанная на HMM.

докладчик: Сильвестров Алексей.

Материалы:

Презентация с семинара (ppt)

Модель Conditional Random Fields (02.03.10)

Доклад посвящен статистической модели Conditional Random Fields (CRF), наиболее часто используемой в приложениях связанных с  обработкой. Во введении делается краткий обзор и сравнение методов машинного обучения, используемых для классификации: наивный байесовский классификатор; метод максимальной энтропии (метод логистической регрессии); скрытая марковская модель. Далее подробно рассматриваются модели Linear-chain CRF и Conditional Random Fields, предлагаются методы оценки параметров моделей, в том числе с учетом проблемы переобучения. В заключении обсуждаются актуальные приложения CRF.

Докладчик: Астраханцев Никита.

Материалы:

Презентация с семинара (pdf)