Author Archive

Вычислительная геномика. Задачи. (19.11.13)

Вычислительная геномика — сфера исследований, опирающихся на применение методов вычислительного и статистического анализа для извлечения биологически значимого знания из результатов расшифровки фрагментов генома (цепей ДНК) и связанных с ним молекулярных структур клетки. В настоящее время, когда в биологии накоплена информация о расшифрованных геномах для совершенно разных организмов, по-настоящему актуальным становится вопрос об алгоритмах для автоматического анализа этой информации: в силу больших объёмов данных ручной анализ здесь невозможен. В рамках данного доклада будут рассмотрены некоторые из задач данной сферы исследований, которые наиболее близки тематике семинара.

Докладчик: Илья Филоненко

Организационное собрание

Первое организационное собрание в этом семестре пройдет совместно для спецсеминаров РООС и БД в четверг 26 сентября в 19.00 в ИСП РАН. На собрании будет рассказано об изменениях в структуре проведения семинаров, а также представлены темы курсовых и дипломных работ.

Вниманию пятикурсников

Госэкзамен для 527, 528 групп запланирован на 23 мая (527 группа и часть 528 группы) и 24 мая (оставшаяся часть 528 группы). Защита дипломных работ планируется 5 июня (527 группа) и 6 июня (528 группа). Полностью готовый текст дипломной работы, удовлетворяющий требованиям по оформлению:
http://sp.cmc.msu.ru/info/5/diplom-reqs.pdf
с подписью научного руководителя и студента на титульном листе должен быть представлен на кафедру до 31 мая. Идентичный электронный вариант должен быть прислан на каф.элекронный адрес sp@cmc.msu.ru до 2 июня. Студенты, не представившие тексты в установленные сроки, не будут допущены к защите диплома.

Распределенные файловые системы и построение облачных систем (30.04.2013)

Доклад будет посвящён обзору файловых систем, используемых при построении кластеров и систем облачных вычислений.
Одной из первых задач, с которой люди сталкиваются при построении кластеров или распределённых вычислительных систем, является выбор системы хранения данных. Помимо очевидной задачи предоставления общего доступа к ресурсам, каждая вычислительная система предъявляет свои требования к системе хранения. Каждая из файловых систем, рассмотренных в данном докладе, имеет специфические особенности, которые делают её пригодной для решения той или иной вычислительной задачи. В докладе будет предоставлен обзор организации распределённого доступа к данным и последствий, которые влечёт за собой тот или иной метод организации.

Будут рассмотрены следующие протоколы и файловые системы: iSCSI, DBRD, AoE, FCoE, Ceph, GlusterFS, NFS, OCFS, GFS2, Lustre

Докладчик: Олег Борисенко

Презентация с семинара

Методы выбора оптимального набора информативных признаков для задач классификации текстов (23.04.2013)

Доклад посвящен методам выбора оптимального набора информативных признаков (feature selection) для задач классификации текстов.

Одна из трудностей классификации текстов при помощи машинного обучения состоит в очень большой размерности пространства признаков. Собственное пространство признаков состоит из уникальных термов (слов или фраз), которые встречаются в корпусе документов, и может включать десятки и сотни тысяч термов даже для корпуса среднего объема. Это непомерно много для большинства алгоритмов обучения.  Например, большинство нейронных сетей неспособны воспринять такое количество входных вершин, а байесовская сеть будет требовать слишком много времени на вычисления, если не выдвигать предположения о независимости признаков в категории (которое часто оказывается неверным). Эта проблема в машинном обучении носит название «проклятье размерности». Поэтому было бы желательно уменьшить размерность пространства признаков, не жертвуя точностью классификатора. Также было бы желательно выполнять это автоматически, без ручного определения признаков. Кроме этого, исключение неинформативных признаков помогает лучше понимать природу текстовых данных, уменьшить размеры хранилищ для текстовых документов.

В докладе дан обзор методов выбора набора информативных признаков. Рассматриваются три основных группы методов: методы-фильтры (filters), методы-обертки (wrappers), встроенные методы (embedded), а также преимущества и недостатки методов каждой группы. Даны описания наиболее популярных методов, рассказано о применении этих методов на практике.

Докладчик: Татьяна Борисова

Материалы:

  1. http://en.wikipedia.org/wiki/Feature_selection
  2. Isabelle Guyon, Andr´e Elisseeff. An Introduction to Variable and Feature Selection. In Journal of Machine Learning Research 3 (2003), pages 1157-1182.
  3. Yiming Yang, Jan O. Pedersen. A comparative study on Feature Selection in Text Categorization. In Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97), pages 412-420.
  4. Luis Carlos Molina, Lluís Belanche, Àngela Nebot. Feature Selection Algorithms: A Survey and Experimental Evaluation. In Proceedings of the 2002 IEEE International Conference on Data Proceedings of the 2002 IEEE International Conference on Data Mining, IEEE Computer Society, 306-313

Презентация с семинара

Обзор методов автоматического реферирования текстов (16.04.2013)

Доклад посвящен методам автоматического реферирования текстов. Будут рассмотрены наиболее распространенные задачи автоматического реферирования. Также будет дан краткий обзор основных подходов, применяющихся в системах автоматического реферирования. Дополнительно будут рассмотрены автоматические и автоматизированные методы оценки качества работы систем автоматического реферирования.

Докладчик: Майоров Владимир

Материалы:

  1. Jurafsky D., Martin J. 2008. Speech and Language Processing (Second edition). 787-807.
  2. Lloret E., Palomar M. 2012. Text summarization in progress: a literature review. Artificial Intelligence Review 37.1: 1-41.
  3. Suneetha S. 2011. Automatic Text Summarization: The Current State of the art. International Journal of Science and Advanced Technology. 283-293.

Презентация с семинара

Анализ социальных медиа (09.04.2013)

В докладе будут кратко рассмотрены подходы к моделированию и анализу социальных медиа. Также будут приведены результаты исследований блоговой площадки LiveJournal: анализ закономерностей информационных процессов блогосферы, взаимовлияния блогосферы и внешнего мира, закономерностей структуры блогосферы.

Докладчик: к.т.н Дмитрий Губанов (ИПУ РАН)

Распределённый расчёт графовых статистик на реальных и синтетических социальных графах (02.04.2013)

Доклад посвящён исследованию графовых свойств и характеристик социальных сетей (эффективный диаметр, средняя степень вершин, распределение степеней вершин, коэффициент кластеризации и др.), а также их вычислению с помощью Stanford Network Analysis Platform и распределённому вычислению на базе GraphLab при помощи эффективных алгоритмов (например, HADI для диаметра графа). Почему распределение степеней вершин подчиняется закону power law? Каковы средняя степень вершины и эффективный диаметр графа Facebook? Как за приемлемое время вычислить диаметр графа порядка ~1М вершин? Какими топологическими свойствами обладает граф Facebook? Вот лишь некоторое множество вопросов, которые будут раскрыты на семинаре.

Докладчик: Кирилл Чихрадзе

Материалы:

  1. U Kang, Charalampos Tsourakakis, Ana Paula Appel, Christos Faloutsos, Jure Leskovec. «HADI: Fast Diameter Estimation and Mining in Massive Graphs with Hadoop». CMU-ML-08-117, 2008.
  2. Jure Leskovec. «Dynamics of Large Networks». CMU-ML-08-111, 2008.
  3. Johan Ugander, Brian Karrer, Lars Backstrom, Cameron Marlow. «The Anatomy of the Facebook Social Graph». CoRR(2011)
  4. Emilio Ferrara, Giacomo Fiumara. «Topological Features of Online Social Networks». Communications on Applied and Industrial Mathematics, 2(2):1-20, 2011

Презентация с семинара