Posts Tagged ‘Борисова Татьяна’

Обзор методов тематического моделирования для больших коллекций текстовых документов (21.10.14)

Задача тематического моделирования (topic modeling, определение тем текстовых документов) является объектом множества современных исследований. С ростом объемов обрабатываемых данных становится актуальной задача выполнить тематическое моделирование быстро и эффективно. Кроме того, данные могут поступать непрерывным потоком, что требует непрерывного до-обучения алгоритма в процессе работы (online learning).

В докладе будут рассмотрены современные алгоритмы тематического моделирования, применяемые к большим коллекциям текстовых документов. Особый упор будет сделан на аспекты реализации таких алгоритмов в распределенных системах.

Докладчик: Татьяна Борисова

Презентация: Doklad_21_oktyabrya_4

Видео: http://www.youtube.com/watch?v=NiHig51ksu0

Методы решения задачи исследования/использования (02.12.13)

В задачах «обучения с подкреплением» часто возникает необходимость соблюдать баланс между исследованием и использованием (exploration vs. exploitation trade-off). Здесь исследование — это получение новых знаний о мире путем выполнения действий, которые могут оказаться неоптимальными с точки зрения общего результата, а эксплуатация — выполнение действий, которые являются наилучшими с точки зрения знаний, имеющихся на данный момент. Баланс исследования/использования особенно подробно изучен в задачах о конечных марковских процессах (Markov decision process, MDP) и о многоруком бандите (multi-armed bandit).

В формулировке задачи многорукого бандита за одно действие агент среды может выбирать из конечного множества альтернатив, получая за действие заранее неизвестную награду (reward). Распределение наград среди альтернатив («ручек» бандита) заранее неизвестно. Цель агента — получить как можно большую награду в результате своих действий.

Один из примеров применения задачи исследования/использования — задача показа баннеров рекламы, в которой среди рекламных баннеров нужно выбрать для показа баннер с максимальным CTR (click-through ratio).

В докладе будет рассказано о различных методах решения задачи многорукого бандита, в том числе о методах с доказанными оценками оптимальности, и некоторых эвристических методах.

Докладчик: Татьяна Борисова

Презентация (pdf)

Методы выбора оптимального набора информативных признаков для задач классификации текстов (23.04.2013)

Доклад посвящен методам выбора оптимального набора информативных признаков (feature selection) для задач классификации текстов.

Одна из трудностей классификации текстов при помощи машинного обучения состоит в очень большой размерности пространства признаков. Собственное пространство признаков состоит из уникальных термов (слов или фраз), которые встречаются в корпусе документов, и может включать десятки и сотни тысяч термов даже для корпуса среднего объема. Это непомерно много для большинства алгоритмов обучения. Например, большинство нейронных сетей неспособны воспринять такое количество входных вершин, а байесовская сеть будет требовать слишком много времени на вычисления, если не выдвигать предположения о независимости признаков в категории (которое часто оказывается неверным). Эта проблема в машинном обучении носит название «проклятье размерности». Поэтому было бы желательно уменьшить размерность пространства признаков, не жертвуя точностью классификатора. Также было бы желательно выполнять это автоматически, без ручного определения признаков. Кроме этого, исключение неинформативных признаков помогает лучше понимать природу текстовых данных, уменьшить размеры хранилищ для текстовых документов.

В докладе дан обзор методов выбора набора информативных признаков. Рассматриваются три основных группы методов: методы-фильтры (filters), методы-обертки (wrappers), встроенные методы (embedded), а также преимущества и недостатки методов каждой группы. Даны описания наиболее популярных методов, рассказано о применении этих методов на практике.

Докладчик: Татьяна Борисова

Материалы:

http://en.wikipedia.org/wiki/Feature_selection
Isabelle Guyon, Andr´e Elisseeff. An Introduction to Variable and Feature Selection. In Journal of Machine Learning Research 3 (2003), pages 1157-1182.
Yiming Yang, Jan O. Pedersen. A comparative study on Feature Selection in Text Categorization. In Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97), pages 412-420.
Luis Carlos Molina, Lluís Belanche, Àngela Nebot. Feature Selection Algorithms: A Survey and Experimental Evaluation. In Proceedings of the 2002 IEEE International Conference on Data Proceedings of the 2002 IEEE International Conference on Data Mining, IEEE Computer Society, 306-313

Презентация с семинара

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Posts Tagged ‘Борисова Татьяна’

Обзор методов тематического моделирования для больших коллекций текстовых документов (21.10.14)

Методы решения задачи исследования/использования (02.12.13)

Методы выбора оптимального набора информативных признаков для задач классификации текстов (23.04.2013)