Управление данными и информационные системы

Научный семинар Института системного программирования РАН

Browsing Posts published by admin

Доклад посвящен одному из подходов к решению задачи классификации, который работает путем комбинирования нескольких слабых классификаторов в один сильный. В докладе будет рассмотрен один из ранних алгоритмов этого семейства – AdaBoost, который выделяется высокой скоростью работы, эффективностью распознавания и простотой реализации. В первой части доклада будет дано описание этого алгоритма, а во второй части будет произведено сравнение эффективности алгоритма AdaBoost с другими схожими алгоритмами.

Докладчик: Пироженко Александр.

Материалы:

Презентация с семинара (pdf)

В докладе рассматриваются способы нахождения ссылок и связей в большом объеме цифровой литературы. В первой части доклада рассказывается об основных проблемах, связанных с обработкой большого количества информации и выделением в ней связей. Во второй части описываются методы решения этих проблем и приводятся результаты их экспериментальной оценки. Рассмотренные методы выделения связей используются в проекте Google Book Search.

Докладчик: Рязанцев Дмитрий.

Материалы:

Отменен

В докладе рассказывается о способах вытеснения блоков БД из буферов основной памяти. В первой части доклада рассказывается об основных подходах к управлению буферами в БД, о классификации алгоритмов вытеснения, о преимуществах и недостатках отдельных алгоритмов. Вторая часть посвящена рассмотрению алгоритмов ARC и CAR, предложенных авторами оригинальной статьи.

Докладчик: Сиващенко Дмитрий.

Материалы:

Презентация с семинара (pdf)

В докладе рассматриваются специальные способы представления Веб-графа, а также эффективные методы его сжатия, реализованные в библиотеке WebGraph, которые основаны на техниках, применяемых при полнотекстовом индексировании. Данные методы используют особые свойства и эмпирические закономерности, наблюдаемые на веб-графе, и позволяют не только добиться значительного уровня сжатия, но и обеспечить эффективный доступ к графу.

Докладчик: Бартунов Сергей.

Материалы:

Презентация с семинара (pdf)

В докладе делается обзор  исследований в области поиска и классификации именованных сущностей (Named entity recognition and classification) за последние 14 лет, от эвристик и созданных вручную правил  до методов машинного обучения. Кратко рассказано об использующихся методах оценки точности и полноты алгоритмов. В заключении  рассматривается система Nymble, основанная на HMM.

докладчик: Сильвестров Алексей.

Материалы:

Презентация с семинара (ppt)

Доклад посвящен статистической модели Conditional Random Fields (CRF), наиболее часто используемой в приложениях связанных с  обработкой. Во введении делается краткий обзор и сравнение методов машинного обучения, используемых для классификации: наивный байесовский классификатор; метод максимальной энтропии (метод логистической регрессии); скрытая марковская модель. Далее подробно рассматриваются модели Linear-chain CRF и Conditional Random Fields, предлагаются методы оценки параметров моделей, в том числе с учетом проблемы переобучения. В заключении обсуждаются актуальные приложения CRF.

Докладчик: Астраханцев Никита.

Материалы:

Презентация с семинара (pdf)

Первый семинар в новом семестре состоится 16 февраля 2010 в 19.00 в здании Института системного программирования РАН ауд. 110. На семинаре будут обсуждаться организационные вопросы, расписание докладов и распределение студентов 3-го курса по научным руководителям.