Меры семантической близости (11.10.11)

Определение семантической близости документов – важная задача, лежащая в основе полнотекстового поиска по интернету, кластеризации документов и пр. На семинаре будут рассмотрены как методы, опирающиеся на лексику документов (векторная модель, латентно-семантический анализ), так и подходы, рассматривающие корпус документов, как граф. Во втором случае, будут упомянуты, локальные методы, определяющие близость документов через общих соседей, и глобальные, рекурсивно подсчитывающие близость для всех пар вершин.

Докладчик: Тимофей Федотов

Материалы:

Турдаков Д.Ю. «Методы разрешения лексической многозначности, основанные на семантической близости в сетях документов». Глава 2.2
Jeh , Widom «SimRank: A Measure of Structural-Context Similarity»
Латентно-семантический анализ. http://habrahabr.ru/blogs/algorithm/110078/

Презентация с семинара (pptx)

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)

В докладе освещены шаблоны проектирования распределенных программ в модели MapReduce. В частности уделяется особое внимание разработке для фреймворка Apache Hadoop. Будут рассмотрены проблемы хранения промежуточных данных, сортировки пар ключ-значение по значению(secondary sorting), очередности вычисления данных(например, при вычислении числителя, знаменателя и их отношения).

Докладчик: Алексей Сильвестров

Материалы:

Jimmy Lin and Chris Dyer. Data-Intensive Text Processing with MapReduce. (1-3 главы)

презентация с семинара (ppt)

Распределенные алгоритмы машинного обучения (22.03.11)

Apache Mahout — это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов
машинного обучения на Map-Reduce.

Докладчик: Бартунов Сергей

Материалы: http://mahout.apache.org/

Презентация: TIFF PDF

Марковские модели (14.12.10)

Доклад посвящен марковским моделям и их применению к прикладным задачам обработки текстов. В докладе рассматриваются задачи

фильтрации
предсказания
сглаживания и
наиболее правдоподобного объяснения.

Приводятся практические примеры их применения и алгоритмы для их эффективного решения. В заключении, рассматривается обобщение скрытой марковской модели на множество независимых последовательностей.

Докладчик: Турдаков Денис

Материалы:

С. Рассел, П. Норвиг. Искусственный интеллект. Современный подход. Второе издание. Глава 15. (html)
Jurafsky D., Martin G.H. Speech and Language Processing. Second edition. Chapters 5-6.
Christopher D. Manning, Hinrich Schiitze. Foundations of Statistical Natural Language Processing. Chapters 9-10.
D. Turdakov, D. Lizorkin. HMM Expanded to Multiple Interleaved Chains as a Model for Word Sense Disambiguation. (pdf)

Презентация с семинара (pdf)

Языковые модели (7.12.10)

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.)

Докладчик: Федоренко Денис

Материалы:

Jurafsky D., Martin G.H. Speech and Language Processing
Y.H. Witten and T.C. Bell. The Zero-Frequency Problem: Estimating the Probabilities of Novel Events in Adaptive Text Compression.

Презентация с семинара (ppt)

Обзор методов морфологического разбора русского языка (23.11.10)

Морфологический анализ — важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества морфологического разбора.

Докладчик: Бартунов Сергей

Материалы:

Презентация с семинара (pdf)

Определение параграфов в тексте (09.11.10)

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy).

Докладчик: Сильвестров Алексей

Материалы:

C. Sporleder, M. Lapata. Automatic Paragraph Identification: A Study across Languages and Domains. EMNLP 2004 (http://ilk.uvt.nl/~caroline/papers/SporlederLapata.pdf)
D. Genzel, E.Charniak Variation of Entropy and Parse Trees of Sentences as a Function of the Sentence Number.EMNLP 2003 (http://acl.ldc.upenn.edu/W/W03/W03-1009.pdf)
Joshua Goodman, Eugene Charniak. The State of the Art in Language Modeling. AAAI, 2002 (http://www.research.microsoft.com/~joshuago/lm-tutorial-v8.ppt)

Презентация с семинара (ppt)

Информационный поиск и семантические сети (19.10.10)

В докладе производится краткий обзор задачи поиска информации в коллекциях документов, основы индексирования и обработки запросов. Рассматриваются подходы к расширению функциональности поисковых машин обработкой аннотаций и семантических языков. Рассматриваются три тестовых системы: OWLIR, Swangler и Swoogle, реализующие данные подходы.

Докладчик: Кийко Александр

Материалы: Tim Finin, et. al.

Tim Finin, et. al. Information Retrieval and the Semantic Web
Justin Zobel, Alistair Moffat. Inverted Files for Text Search Engines.

Презентация с семинара (pptx)

Методы обогащения текстовых коллекций ссылками: система TAGME (28.09.10)

Доклад освещает метод добавления в неструктурированный и частично структурированный текст перекрестных ссылок на Wikipedia. Особенность этого метода в том, что он заточен на обработку коротких текстов, состоящих всего из нескольких десятков слов. Также рассмотрена система TAGME, реализующая представленный метод, и приведены оценки ее эффективности по сравнению с предшественниками.

Докладчик: Рябов Сергей

Материалы:

TAGME: on-the-fly annotation of short text fragments

Презентация с семинара (ppt)

Boosting — Усиление простых классификаторов (06.04.10)

Доклад посвящен одному из подходов к решению задачи классификации, который работает путем комбинирования нескольких слабых классификаторов в один сильный. В докладе будет рассмотрен один из ранних алгоритмов этого семейства — AdaBoost, который выделяется высокой скоростью работы, эффективностью распознавания и простотой реализации. В первой части доклада будет дано описание этого алгоритма, а во второй части будет произведено сравнение эффективности алгоритма AdaBoost с другими схожими алгоритмами.

Докладчик: Пироженко Александр.

Материалы:

Презентация с семинара (pdf)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Posts Tagged ‘Турдаков Денис’

Меры семантической близости (11.10.11)

Шаблоны проектирования программ для Hadoop MapReduce (26.04.11)

Распределенные алгоритмы машинного обучения (22.03.11)

Марковские модели (14.12.10)

Языковые модели (7.12.10)

Обзор методов морфологического разбора русского языка (23.11.10)

Определение параграфов в тексте (09.11.10)

Информационный поиск и семантические сети (19.10.10)

Методы обогащения текстовых коллекций ссылками: система TAGME (28.09.10)

Boosting — Усиление простых классификаторов (06.04.10)