Posts Tagged ‘Турдаков Денис’

Меры семантической близости (11.10.11)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Презентация с семинара (pptx)

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)

В докладе освещены шаблоны проектирования распределенных программ в модели MapReduce. В частности уделяется особое внимание разработке для фреймворка Apache Hadoop. Будут рассмотрены проблемы хранения промежуточных данных, сортировки пар ключ-значение по значению(secondary sorting), очередности вычисления данных(например, при вычислении числителя, знаменателя и их отношения).

Докладчик: Алексей Сильвестров

Материалы:

презентация с семинара (ppt)

Распределенные алгоритмы машинного обучения (22.03.11)

Apache Mahout — это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов
машинного обучения на Map-Reduce.

Докладчик: Бартунов Сергей

Материалы: http://mahout.apache.org/

Презентация: TIFF PDF

Марковские модели (14.12.10)

Доклад посвящен марковским моделям и их применению к прикладным задачам обработки текстов. В докладе рассматриваются задачи

  • фильтрации
  • предсказания
  • сглаживания и
  • наиболее правдоподобного объяснения.

Приводятся практические примеры их применения и алгоритмы для их эффективного решения. В заключении, рассматривается обобщение скрытой марковской модели на множество независимых последовательностей.

Докладчик: Турдаков Денис

Материалы:

  • С. Рассел, П. Норвиг. Искусственный интеллект. Современный подход. Второе издание. Глава 15.  (html)
  • Jurafsky D., Martin G.H. Speech and Language Processing. Second edition. Chapters 5-6.
  • Christopher D. Manning, Hinrich Schiitze. Foundations of Statistical Natural Language Processing. Chapters 9-10.
  • D. Turdakov, D. Lizorkin. HMM Expanded to Multiple Interleaved Chains as a Model for Word Sense Disambiguation. (pdf)

Презентация с семинара (pdf)

Языковые модели (7.12.10)

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.)

Докладчик: Федоренко Денис

Материалы:

  • Jurafsky D., Martin G.H. Speech and Language Processing
  • Y.H. Witten and T.C. Bell. The Zero-Frequency Problem: Estimating the Probabilities of Novel Events in Adaptive Text Compression.

Презентация с семинара (ppt)

Обзор методов морфологического разбора русского языка (23.11.10)

Морфологический анализ — важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества морфологического разбора.

Докладчик: Бартунов Сергей

Материалы:

Презентация с семинара (pdf)

Определение параграфов в тексте (09.11.10)

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy).

Докладчик: Сильвестров Алексей

Материалы:

Презентация с семинара (ppt)

Информационный поиск и семантические сети (19.10.10)

В докладе производится краткий обзор задачи поиска информации в коллекциях документов, основы индексирования и обработки запросов. Рассматриваются подходы к расширению функциональности поисковых машин обработкой аннотаций и семантических языков. Рассматриваются три тестовых системы: OWLIR, Swangler и Swoogle, реализующие данные подходы.

Докладчик: Кийко Александр

Материалы: Tim Finin, et. al.

Презентация с семинара (pptx)

Методы обогащения текстовых коллекций ссылками: система TAGME (28.09.10)

Доклад освещает метод добавления в неструктурированный и частично структурированный текст перекрестных ссылок на Wikipedia. Особенность этого метода в том, что он заточен на обработку коротких текстов, состоящих всего из нескольких десятков слов. Также рассмотрена система TAGME, реализующая представленный метод, и приведены оценки ее эффективности по сравнению с предшественниками.

Докладчик: Рябов Сергей

Материалы:

Презентация с семинара (ppt)

Boosting — Усиление простых классификаторов (06.04.10)

Доклад посвящен одному из подходов к решению задачи классификации, который работает путем комбинирования нескольких слабых классификаторов в один сильный. В докладе будет рассмотрен один из ранних алгоритмов этого семейства — AdaBoost, который выделяется высокой скоростью работы, эффективностью распознавания и простотой реализации. В первой части доклада будет дано описание этого алгоритма, а во второй части будет произведено сравнение эффективности алгоритма AdaBoost с другими схожими алгоритмами.

Докладчик: Пироженко Александр.

Материалы:

Презентация с семинара (pdf)