Проверка статистических гипотез для сравнения классификаторов (27.11.2012)

Проверка статистических гипотез — подход, позволяющий принимать решения, в отсутствии априорных знаний. Доклад описывает возможности применения этой техники для сравнения качества работы классификаторов.

В рамках доклада планируется ознакомить слушателей с основной терминологией статистического анализа, а так же продемонстрировать несколько критериев, полезных для сравнения классификаторов t-test и ранговый тест Вилкоксона).

Докладчик: Валерий Аванесов

Материалы:

Frank Wilcoxon. Individual Comparisons by Ranking Methods. Biometrics Bulletin, Vol. 1, No. 6. (Dec., 1945), pp. 80-83. [PDF]
Натан А.А., Горбачёв О.Г., Гуз С.А. Математическая статистика. Москва, МЗ Пресс, 2005.

Презентация с семинара

Новые подходы к применению распределённых вычислений для обработки больших данных (20.11.2012)

В докладе будет представлен обзор современных технологий для организации распределенных вычислений (таких как Hadoop, MapReduce, BSP, и др.), а также наиболее быстро развивающихся и интересных областей их применения. Детально будут рассмотрены два направления — анализ масштабных графов и обработка потоковых данных в реальном времени.

Докладчики: Константин Абакумов, Антон Коршунов

Материалы:

Презентация с семинара

Система обработки текстов Texterra (13.11.2012)

Texterra — разрабатываемый в ИСП РАН инструмент для обработки и семантического анализа текстов. В ходе доклада будут показаны некоторые возможности системы Texterra. Кроме того будут рассмотрены архитектура и принцип работы системы Texterra, а также один из способов получения базы знаний для нее.

Докладчик: Александр Бабаков

Материалы:

Viktor Ivannikov, Denis Turdakov, Yaroslav Nedumov. Fast Text Annotation with Linked Data. Eighth International Conference on Computer Science and Information Technologies 26 – 30 September, 2011, Yerevan, Armenia
D. Turdakov. Word sense disambiguation methods. Programming and Computer Software, Vol. 36, Issue 6
M. Grineva, M. Grinev, D. Lizorkin. Extracting Key Terms From Noisy and Multitheme Documents. WWW2009: 18th International World Wide Web Conference

Презентация с семинара

Семантический поиск (6.11.2012)

Семантический поиск – это метод информационного поиска, в котором релевантность документа запросу определяется семантически, а не синтаксически.
В докладе будут рассмотрены два подхода к организации семантического поиска:

классический поиск, но основанный на концепциях документа (а не на словах или терминах);
поиск, основанный на структурированных запросах.

Докладчик: Андрей Сысоев

Материалы

G. Kasneci, F.M. Suchanek, G. Ifrim, M. Ramanath, G. Weikum. NAGA: Searching and Ranking Knowledge, 2008.
F. Giunchiglia, U. Kharkevich, I. Zaihrayeu. Concept Search, 2009.

Презентация с семинара

Методы и проблемы извлечения информации из текстов (30.10.12)

Извлечение информации (information extraction) — это одно из направлений обработки текста на естественном языке, заключающееся в автоматическом извлечении структурированных данных из неструктурированных документов. В докладе будут рассмотрены основные задачи, возникающие при извлечении информации: распознавание именованных сущностей(Named-entity
recognition), извлечение отношений(Relation extraction), временной анализ(Temporal analysis) и извлечение событий(Event detection), а также принятые подходы для решения этих задач и возникающие при этом проблемы.

Докладчик: Алексей Лагута

Материалы:

Dan Jurafsky, James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall Series in Artificial Intelligence.

Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных (16.10.12)

Кластеризация — задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластеризация является одной из фундаментальных задач в Data Mining и активно применяется в прогнозировании, анализе текстов, сегментации изображений и других областях.
В докладе рассматривается алгоритм кластеризации на основе отношения α-квазиэквивалентности и проводится сравнение его эффективности с классическими иерархическими алгоритмами, такими как Greedy Agglomerative/Divisive Clustering и Bisecting k-means, на синтетических наборах данных.

Докладчик: Максим Варламов

Материалы:

Баргесян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. – СПб.: БХВ-Петербург, 2004. – 336 с.
Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007.
A.K. Jain, M.N. Murty, P.J. Flynn. Data Clustering. 1999.
Yaling Pei, Osmar Zaïane. A synthetic data generator for clustering and outlier analysis. 2006.

Презентация с семинара (pdf)

Методы нормализации слов русского языка (09.10.12)

Нормализация слов естественных языков — приведение их к начальной форме — одна из проблем прикладной лингвистики, актуальная для информационного поиска, машинного перевода и других задач обработки текста. Как правило, задача нормализации разбивается на стемминг (поиск неизменяемой части слова) и синтез нормальной формы.
В докладе будут рассмотрены существующие методы нормализации естественных языков, имеющие реализацию для обработки русских слов.

Докладчик: Оксана Астапова

Материалы:

Ilya Segalovich “A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine”, 2003
“Russian stemming algorithm” http://snowball.tartarus.org/algorithms/russian/stemmer.html
А. Коваленко «Вероятностный морфологический анализатор русского и украинского языков» , 2002 http://www.keva.ru/stemka/stemka.html

Презентация с семинара (pdf)

Алгоритм машинного обучения Random Forest (02.10.12)

Доклад посвящен одному из алгоритмов машинного обучения — случайному лесу (Random Forest). Случайный лес — метод, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев в задачах классификации, регрессии и кластеризации. Random Forest способен эффективно обрабатывать данные с большим числом признаков и классов, его качество сравнимо с SVM и бустингом. Он отличается высокой параллелизуемостью и масштабируемостью.

Докладчик: Андрей Гомзин

Материалы:

http://ru.wikipedia.org/wiki/Random_forest
Andy Liaw and Matthew Wiener. Random Forest: A Classification and Regression Tool for сompound Classification and QSAR Modeling.
Leo Breiman. Random Forests.

Презентация с семинара (pdf)

Artificial General Intelligence: требования, методологии, системы (25.09.12)

Доклад посвящен проблемам построения AGI и большей частью основан на материалах AGI Summer School 2012 (http://wiki.humanobs.org/public:events:agi-summerschool-2012).

В докладе будут рассмотрены требования, которым должны удовлетворять AGI-системы. Будут рассмотрены существующие на данный момент подходы к конструированию и методологии построения AI-систем, показаны их недостатки в применении к AGI; будет рассмотрен т.н. Constructivist AI, методология построения AGI, предложенная для устранения этих недостатков.

В качестве примеров AGI-проектов будут рассмотрены системы AERA, NARS, OpenCog и направление исследований Universal Artificial Intelligence, также известное как AIXI.

Докладчик: Иван Белобородов.

Материалы:

Лекции AGI Summer School 2012 (http://wiki.humanobs.org/public:events:agi-summerschool-2012:lectureslides).
Литература для чтения AGI Summer School 2012 (http://wiki.humanobs.org/public:events:agi-summerschool-2012:readings).

Презентация с семинара (pdf)

Первый семинар в осеннем семестре

Первый семинар состоится в следующий вторник 25 сентября в 19.15 в Институте системного программирования РАН в к. 110.

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for the ‘Аннотации’ Category

Проверка статистических гипотез для сравнения классификаторов (27.11.2012)

Новые подходы к применению распределённых вычислений для обработки больших данных (20.11.2012)

Система обработки текстов Texterra (13.11.2012)

Семантический поиск (6.11.2012)

Методы и проблемы извлечения информации из текстов (30.10.12)

Сравнение алгоритма кластеризации на основе отношения α-квазиэквивалентности с классическими иерархическими алгоритмами на синтетических наборах данных (16.10.12)

Методы нормализации слов русского языка (09.10.12)

Алгоритм машинного обучения Random Forest (02.10.12)

Artificial General Intelligence: требования, методологии, системы (25.09.12)

Первый семинар в осеннем семестре