Archive for Апрель, 2013

Распределенные файловые системы и построение облачных систем (30.04.2013)

Доклад будет посвящён обзору файловых систем, используемых при построении кластеров и систем облачных вычислений.
Одной из первых задач, с которой люди сталкиваются при построении кластеров или распределённых вычислительных систем, является выбор системы хранения данных. Помимо очевидной задачи предоставления общего доступа к ресурсам, каждая вычислительная система предъявляет свои требования к системе хранения. Каждая из файловых систем, рассмотренных в данном докладе, имеет специфические особенности, которые делают её пригодной для решения той или иной вычислительной задачи. В докладе будет предоставлен обзор организации распределённого доступа к данным и последствий, которые влечёт за собой тот или иной метод организации.

Будут рассмотрены следующие протоколы и файловые системы: iSCSI, DBRD, AoE, FCoE, Ceph, GlusterFS, NFS, OCFS, GFS2, Lustre

Докладчик: Олег Борисенко

Презентация с семинара

Методы выбора оптимального набора информативных признаков для задач классификации текстов (23.04.2013)

Доклад посвящен методам выбора оптимального набора информативных признаков (feature selection) для задач классификации текстов.

Одна из трудностей классификации текстов при помощи машинного обучения состоит в очень большой размерности пространства признаков. Собственное пространство признаков состоит из уникальных термов (слов или фраз), которые встречаются в корпусе документов, и может включать десятки и сотни тысяч термов даже для корпуса среднего объема. Это непомерно много для большинства алгоритмов обучения.  Например, большинство нейронных сетей неспособны воспринять такое количество входных вершин, а байесовская сеть будет требовать слишком много времени на вычисления, если не выдвигать предположения о независимости признаков в категории (которое часто оказывается неверным). Эта проблема в машинном обучении носит название «проклятье размерности». Поэтому было бы желательно уменьшить размерность пространства признаков, не жертвуя точностью классификатора. Также было бы желательно выполнять это автоматически, без ручного определения признаков. Кроме этого, исключение неинформативных признаков помогает лучше понимать природу текстовых данных, уменьшить размеры хранилищ для текстовых документов.

В докладе дан обзор методов выбора набора информативных признаков. Рассматриваются три основных группы методов: методы-фильтры (filters), методы-обертки (wrappers), встроенные методы (embedded), а также преимущества и недостатки методов каждой группы. Даны описания наиболее популярных методов, рассказано о применении этих методов на практике.

Докладчик: Татьяна Борисова

Материалы:

  1. http://en.wikipedia.org/wiki/Feature_selection
  2. Isabelle Guyon, Andr´e Elisseeff. An Introduction to Variable and Feature Selection. In Journal of Machine Learning Research 3 (2003), pages 1157-1182.
  3. Yiming Yang, Jan O. Pedersen. A comparative study on Feature Selection in Text Categorization. In Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97), pages 412-420.
  4. Luis Carlos Molina, Lluís Belanche, Àngela Nebot. Feature Selection Algorithms: A Survey and Experimental Evaluation. In Proceedings of the 2002 IEEE International Conference on Data Proceedings of the 2002 IEEE International Conference on Data Mining, IEEE Computer Society, 306-313

Презентация с семинара

Обзор методов автоматического реферирования текстов (16.04.2013)

Доклад посвящен методам автоматического реферирования текстов. Будут рассмотрены наиболее распространенные задачи автоматического реферирования. Также будет дан краткий обзор основных подходов, применяющихся в системах автоматического реферирования. Дополнительно будут рассмотрены автоматические и автоматизированные методы оценки качества работы систем автоматического реферирования.

Докладчик: Майоров Владимир

Материалы:

  1. Jurafsky D., Martin J. 2008. Speech and Language Processing (Second edition). 787-807.
  2. Lloret E., Palomar M. 2012. Text summarization in progress: a literature review. Artificial Intelligence Review 37.1: 1-41.
  3. Suneetha S. 2011. Automatic Text Summarization: The Current State of the art. International Journal of Science and Advanced Technology. 283-293.

Презентация с семинара

Анализ социальных медиа (09.04.2013)

В докладе будут кратко рассмотрены подходы к моделированию и анализу социальных медиа. Также будут приведены результаты исследований блоговой площадки LiveJournal: анализ закономерностей информационных процессов блогосферы, взаимовлияния блогосферы и внешнего мира, закономерностей структуры блогосферы.

Докладчик: к.т.н Дмитрий Губанов (ИПУ РАН)