Archive for the ‘Аннотации’ Category

Using graph partitioning algorithms to improve performance of distributed graph processing (05.11.2013)

One possible way of improving performance of distributed graph processing algorithms is using graph partitioning algorithms. This presentation gives an overview of graph partitioning algorithms and their use. Main ideas for the following algorithms are described: Kernighan-Lin partitioning algorithm, METIS, Balanced Label Propagation.

Speaker: Roman Pastukhov

Presentation

Полуавтоматическое извлечение данных из таблиц: подход на основе сдвигов (29.10.2013)

Доклад посвящен новому подходу к автоматизации извлечения полезной информации из таблиц. Этот подход основан на моделировании поведения эксперта, который собирает табличные данные и отображает их в предопределенную реляционную схему. Экспериментальные результаты показывают, что предложенный подход предсказывает экспертные решения с высокой точностью и, таким образом, значительно сокращает время, необходимое эксперту для агрегирования данных.

Докладчик: Никита Астраханцев

Слайды

Modern Data Management (15.10.2013, 22.10.2013)

In order to provide complex solutions, modern data management requires understanding of problems from different points of view. This presentation describes current challenges and directions of work in data management. The first part of presentation gives overview of infrastructure for data management. Then techniques for processing particular type of data — text data are presented. We describe main problems and their possible solutions using known approaches, including ideas and technologies developed in ISPRAS.

Speaker: Denis Turdakov

Поиск сообществ пользователей социальных сетей. Определение демографических атрибутов пользователей социальных сетей. Методы и приложения. (08.10.2013)

Поиск сообществ пользователей является важным инструментом изучения и анализа социальных сетей, позволяющим исследовать мезоскопическую (модульную) организацию сети. К примеру, знания о структуре сообществ незаменимы для предсказания связей и атрибутов пользователей, расчёта близости пользователей в социальном графе, оптимизации потоков данных в социальной сети, некоторых аналитических приложений и т.д.

В системах интернет-маркетинга и рекомендаций особую важность представляет определение демографических атрибутов пользователя для таргетированного продвижения товаров и услуг в группах пользователей с заданными значениями атрибутов. К таким атрибутам относятся пол, возраст, семейное положение, уровень образования, профессия, трудоустроенность, религиозные и политические взгляды, место жительства и т.д. Помимо интернет-сервисов, такие социо-демографические характеристики находят применение в различных дисциплинах: социология, психология, криминология, экономика, управление персоналом и др.

В докладе рассмотрены разработанные в ИСП РАН методы для решения описанных задач, а также некоторые их приложения.

Докладчик: Антон Коршунов

Литература:

  1. Community Discovery in Social Networks: Applications, Methods and Emerging Trends
  2. Overlapping Community Detection in Networks: the State of the Art and Comparative Study
  3. SLPA: Uncovering Overlapping Communities in Social Networks via A Speaker-listener Interaction Dynamic Process
  4. Classifying Latent User Attributes in Twitter
  5. “How Old Do You Think I Am?”: A Study of Language and Age in Twitter

Обнаружение и классификация объектов видеопотока (01.10.2013)

В данном докладе рассматривается проблема распознавания и классификации объектов на изображенях в контексте видеонаблюдения. Обнаруженные  объекты представлены в виде небольших силуэтов двоичных (10-100 пикселей) масок. Мы описываем наши методологии сегментации и классификации объектов в видеопотоке. Мы обозначаем  подходы класторизации, сегментации и классификации, основанные на диффузных картах.

Докладчик: Михаил Желудев (Самсунг, Технион)

Выбор тем курсовых и дипломов

Завтра, в пятницу, 27 сентября и в понедельник, 30 сентября можно подойти в институт и поговорить с научными руководителями. О своем приходе желательно предупредить по телефону +7(495) 912-56-59 (ext. 4461), иначе может оказаться, что разговаривать вам будет не с кем.

До 6 утра вторника, 1 октября, на почту, которую я написал на доске, вы должны прислать список тем. Темы должны быть написаны по одной на каждой строке в порядке убывания приоритета (т.е. самую желанную тему следует писать первой). Список тем для справки в таблице ниже. Если до 6 утра вторника, 1 октября письма от вас не будет, то выбор темы для вас мы оставляем на свое усмотрение. Есть еще вариант перехода на другой семинар.

Во вторник перед семинаром мы опубликуем получившееся распределение тем по студентам.

Просьба отнестись к выбору темы серьезно, вам придется потратить на нее массу времени в течение года, не стесняйтесь подойти к научным руководителям, задать вопросы или попросить более подробных объяснений. Вы так же можете предложить свою тему.
Read On…

Распределенные файловые системы и построение облачных систем (30.04.2013)

Доклад будет посвящён обзору файловых систем, используемых при построении кластеров и систем облачных вычислений.
Одной из первых задач, с которой люди сталкиваются при построении кластеров или распределённых вычислительных систем, является выбор системы хранения данных. Помимо очевидной задачи предоставления общего доступа к ресурсам, каждая вычислительная система предъявляет свои требования к системе хранения. Каждая из файловых систем, рассмотренных в данном докладе, имеет специфические особенности, которые делают её пригодной для решения той или иной вычислительной задачи. В докладе будет предоставлен обзор организации распределённого доступа к данным и последствий, которые влечёт за собой тот или иной метод организации.

Будут рассмотрены следующие протоколы и файловые системы: iSCSI, DBRD, AoE, FCoE, Ceph, GlusterFS, NFS, OCFS, GFS2, Lustre

Докладчик: Олег Борисенко

Презентация с семинара

Методы выбора оптимального набора информативных признаков для задач классификации текстов (23.04.2013)

Доклад посвящен методам выбора оптимального набора информативных признаков (feature selection) для задач классификации текстов.

Одна из трудностей классификации текстов при помощи машинного обучения состоит в очень большой размерности пространства признаков. Собственное пространство признаков состоит из уникальных термов (слов или фраз), которые встречаются в корпусе документов, и может включать десятки и сотни тысяч термов даже для корпуса среднего объема. Это непомерно много для большинства алгоритмов обучения.  Например, большинство нейронных сетей неспособны воспринять такое количество входных вершин, а байесовская сеть будет требовать слишком много времени на вычисления, если не выдвигать предположения о независимости признаков в категории (которое часто оказывается неверным). Эта проблема в машинном обучении носит название «проклятье размерности». Поэтому было бы желательно уменьшить размерность пространства признаков, не жертвуя точностью классификатора. Также было бы желательно выполнять это автоматически, без ручного определения признаков. Кроме этого, исключение неинформативных признаков помогает лучше понимать природу текстовых данных, уменьшить размеры хранилищ для текстовых документов.

В докладе дан обзор методов выбора набора информативных признаков. Рассматриваются три основных группы методов: методы-фильтры (filters), методы-обертки (wrappers), встроенные методы (embedded), а также преимущества и недостатки методов каждой группы. Даны описания наиболее популярных методов, рассказано о применении этих методов на практике.

Докладчик: Татьяна Борисова

Материалы:

  1. http://en.wikipedia.org/wiki/Feature_selection
  2. Isabelle Guyon, Andr´e Elisseeff. An Introduction to Variable and Feature Selection. In Journal of Machine Learning Research 3 (2003), pages 1157-1182.
  3. Yiming Yang, Jan O. Pedersen. A comparative study on Feature Selection in Text Categorization. In Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97), pages 412-420.
  4. Luis Carlos Molina, Lluís Belanche, Àngela Nebot. Feature Selection Algorithms: A Survey and Experimental Evaluation. In Proceedings of the 2002 IEEE International Conference on Data Proceedings of the 2002 IEEE International Conference on Data Mining, IEEE Computer Society, 306-313

Презентация с семинара

Обзор методов автоматического реферирования текстов (16.04.2013)

Доклад посвящен методам автоматического реферирования текстов. Будут рассмотрены наиболее распространенные задачи автоматического реферирования. Также будет дан краткий обзор основных подходов, применяющихся в системах автоматического реферирования. Дополнительно будут рассмотрены автоматические и автоматизированные методы оценки качества работы систем автоматического реферирования.

Докладчик: Майоров Владимир

Материалы:

  1. Jurafsky D., Martin J. 2008. Speech and Language Processing (Second edition). 787-807.
  2. Lloret E., Palomar M. 2012. Text summarization in progress: a literature review. Artificial Intelligence Review 37.1: 1-41.
  3. Suneetha S. 2011. Automatic Text Summarization: The Current State of the art. International Journal of Science and Advanced Technology. 283-293.

Презентация с семинара

Анализ социальных медиа (09.04.2013)

В докладе будут кратко рассмотрены подходы к моделированию и анализу социальных медиа. Также будут приведены результаты исследований блоговой площадки LiveJournal: анализ закономерностей информационных процессов блогосферы, взаимовлияния блогосферы и внешнего мира, закономерностей структуры блогосферы.

Докладчик: к.т.н Дмитрий Губанов (ИПУ РАН)