Author Archive

Обзор стека технологий Apache Hadoop для распределённой обработки данных. Распределённая файловая система HDFS

В докладе кратко освещены наиболее значимые технологий стека Apache Hadoop: MapReduce, HBase, ZooKeeper, Hive, Pig и некоторые другие. Также подробно рассмотрена распределённая файловая система Hadoop Distributed File System, отвечающая требованиям производительности, масштабируемости, надёжности и высокой доступности данных. Описаны ключевые архитектурные особенности HDFS и приведены результаты бенчмарков.
Доклад состоится 15 марта. Начало в 19.00.

Докладчик: Рябов Сергей

Презентация с семинара (pptx)

Параллельное и распределенное программирование: современные вызовы (01.03.11)

В докладе будет дан обзор технологий от высокопроизводительных вычислений до GRID технологий и облачных вычислений. Данный доклад предназначен для определения области, которая будет изучаться на семинаре в этом семестре.

Докладчик: Ученый секретарь ИСП РАН, Арутюн Ишханович Аветисян.

Презентация с семинара (ppt)

Организационный семинар (22.02.11)

Первый семинар в новом семестре состоится 22 февраля 2011 в 19.00 в здании Института системного программирования РАН ауд. 110. На семинаре будут обсуждаться организационные вопросы и расписание докладов .

Тематика семинара в этом семестре будет связана с различными подходами к распределенным вычислениям. Руководители семинара подготовят список докладов по данной теме, однако этот список не окончательный и будет обсуждаться. Всем кто собирается прийти на семинар, предлагается подумать о темах докладов, которые вы хотели бы услышать в течении семестра.

Марковские модели (14.12.10)

Доклад посвящен марковским моделям и их применению к прикладным задачам обработки текстов. В докладе рассматриваются задачи

  • фильтрации
  • предсказания
  • сглаживания и
  • наиболее правдоподобного объяснения.

Приводятся практические примеры их применения и алгоритмы для их эффективного решения. В заключении, рассматривается обобщение скрытой марковской модели на множество независимых последовательностей.

Докладчик: Турдаков Денис

Материалы:

  • С. Рассел, П. Норвиг. Искусственный интеллект. Современный подход. Второе издание. Глава 15.  (html)
  • Jurafsky D., Martin G.H. Speech and Language Processing. Second edition. Chapters 5-6.
  • Christopher D. Manning, Hinrich Schiitze. Foundations of Statistical Natural Language Processing. Chapters 9-10.
  • D. Turdakov, D. Lizorkin. HMM Expanded to Multiple Interleaved Chains as a Model for Word Sense Disambiguation. (pdf)

Презентация с семинара (pdf)

Языковые модели (7.12.10)

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.)

Докладчик: Федоренко Денис

Материалы:

  • Jurafsky D., Martin G.H. Speech and Language Processing
  • Y.H. Witten and T.C. Bell. The Zero-Frequency Problem: Estimating the Probabilities of Novel Events in Adaptive Text Compression.

Презентация с семинара (ppt)

Распределённые хэш-таблицы на примере NoSQL СУБД Cassandra (30.11.10)

Доклад посвящен системе Cassandra — распределенной Key/value СУБД,
специально созданной Facebook для покрытия основных требований этой
наиболее популярной соц. сети: устойчивость к сбоям отдельных
серверов, надежность, быстрота, простота масштабируемости. Будет
рассказано об особенностях архитектуры всей системы в целом, а также о
специфике работы использующихся в системе алгоритмов, обеспечивающих
её быстроту и надежность. В докладе дополнительно будет рассмотрен
принцип работы приложений Facebook с системой Cassandra на примере
Facebook Inbox Search.

Докладчик: Сиващенко Дмитрий

Материалы:

  • Avinash Lakshman, Prashant Malik. Cassandra — A Decentralized Structured Storage System. (pdf)
  • Frank Dabek. A Distributed Hash Table. PhD thesis. (pdf)

Презентация с семинара (pdf)

Обзор методов морфологического разбора русского языка (23.11.10)

Морфологический анализ — важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества морфологического разбора.

Докладчик: Бартунов Сергей

Материалы:

Презентация с семинара (pdf)

XRank: Ранжированный поиск ключевых слов в коллекциях XML документов (16.11.10)

В докладе рассказывается о методе ранжированного поиска в коллекциях XML-документов Xrank. Xrank — это адаптированный к XML алгоритм ссылочного ранжирования Pagerank для HTML. Также в докладе рассматриваются методы улучшенной обработки запросов XML-поиска: такие как использовани DIL, RDIL, HDIL.

Докладчик: Зуев Анатолий.

Материалы:

презентация с семинара (pptx)

Определение параграфов в тексте (09.11.10)

Доклад посвящен задаче обнаружения границ абзацев в тексте (paragraph boundary identification). Будет рассмотрена реализация, основанная на принципе постоянства энтропийной скорости (entropy rate constancy).

Докладчик: Сильвестров Алексей

Материалы:

Презентация с семинара (ppt)