Распределённые key-value хранилища: Amazon Dynamo, Project Voldemort, Riak

Key-Value storage — это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. — Riak — написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo — основа системы хранения сервисов в Amazon, которым достаточно простого доступа к данным по ключу.
В докладе рассмотрены механизмы и архитектура каждой модели и их сравнение.

Докладчик: Зуев Анатолий

презентация с семинара (pdf)

Распределённые NoSQL базы данных: Google BigTable, Hadoop HBase, HyperTable (05.04.11)

Распределённые базы данных — базы данных построенные на распределенных файловых системах, работающие одновременно на нескольких связанных серверах. После того, как в 2004 году Google представил свою систему BigTable, появились еще 2 другие open-source реализации Hadoop Hbase написанная на Java, и HyperTable на С++.
В докладе будут рассмотрены механизмы каждой системы, а так же их различия.

Докладчик: Стариков Николай

Материалы:

BigTable:
http://labs.google.com/papers/bigtable.html

HBase:
http://hbase.apache.org/book/architecture.html

Hypertable:
http://www.insight-it.ru/masshtabiruemost/hypertable/
http://code.google.com/p/hypertable/wiki/ArchitecturalOverview

презентация с семинара (pdf)

Модели распределенной обработки данных (29.03.11)

MapReduce — это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce — первой реализации модели MapReduce, и об Apache Hadoop — реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere.

Докладчик: Гомзин Андрей

Материалы:

MapReduce, Sawzall:
MapReduce: Simplified Data Processing on Large Cluster
Interpreting the Data: Parallel Analysis with Sawzall

Apache Hadoop:
Hadoop: The Definitive Guide (глава 6)

Sector/Sphere:
Sector and Sphere: the design and implementation of a high-performance data cloud
Дополнительно: Processing Massive Sized Graphs Using Sector/Sphere

Microsoft Dryad:
Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks
DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language

Презентация с семинара

Распределенные алгоритмы машинного обучения (22.03.11)

Apache Mahout — это библиотека алгоритмов машинного обучения, способная обрабатывать большие объемы данных. Большинство алгоритмов библиотеки реализовано поверх Apache Hadoop с использованием парадигмы Map-Reduce. На данный момент четыре основные решаемые Mahout задачи это анализ рекомендаций, кластеризация, классификация и анализ наборов (frequent itemset mining). В докладе будут освещена архитектура библиотеки, а также рассмотрены примеры распараллеливания алгоритмов
машинного обучения на Map-Reduce.

Докладчик: Бартунов Сергей

Материалы: http://mahout.apache.org/

Презентация: TIFF PDF

Обзор стека технологий Apache Hadoop для распределённой обработки данных. Распределённая файловая система HDFS

В докладе кратко освещены наиболее значимые технологий стека Apache Hadoop: MapReduce, HBase, ZooKeeper, Hive, Pig и некоторые другие. Также подробно рассмотрена распределённая файловая система Hadoop Distributed File System, отвечающая требованиям производительности, масштабируемости, надёжности и высокой доступности данных. Описаны ключевые архитектурные особенности HDFS и приведены результаты бенчмарков.
Доклад состоится 15 марта. Начало в 19.00.

Докладчик: Рябов Сергей

Презентация с семинара (pptx)

Параллельное и распределенное программирование: современные вызовы (01.03.11)

В докладе будет дан обзор технологий от высокопроизводительных вычислений до GRID технологий и облачных вычислений. Данный доклад предназначен для определения области, которая будет изучаться на семинаре в этом семестре.

Докладчик: Ученый секретарь ИСП РАН, Арутюн Ишханович Аветисян.

Презентация с семинара (ppt)

Марковские модели (14.12.10)

Доклад посвящен марковским моделям и их применению к прикладным задачам обработки текстов. В докладе рассматриваются задачи

фильтрации
предсказания
сглаживания и
наиболее правдоподобного объяснения.

Приводятся практические примеры их применения и алгоритмы для их эффективного решения. В заключении, рассматривается обобщение скрытой марковской модели на множество независимых последовательностей.

Докладчик: Турдаков Денис

Материалы:

С. Рассел, П. Норвиг. Искусственный интеллект. Современный подход. Второе издание. Глава 15. (html)
Jurafsky D., Martin G.H. Speech and Language Processing. Second edition. Chapters 5-6.
Christopher D. Manning, Hinrich Schiitze. Foundations of Statistical Natural Language Processing. Chapters 9-10.
D. Turdakov, D. Lizorkin. HMM Expanded to Multiple Interleaved Chains as a Model for Word Sense Disambiguation. (pdf)

Презентация с семинара (pdf)

Языковые модели (7.12.10)

В докладе рассматривается модель n-грамм для моделирования и обработки естественного языка. Особое внимание уделяется обзору методов решения проблемы разреженности естественных языков. Также рассматриваются прикладные задачи, в основе которых лежит механизм n-грамм (генерация текстов заданной тематики, распознавание речи и др.)

Докладчик: Федоренко Денис

Материалы:

Jurafsky D., Martin G.H. Speech and Language Processing
Y.H. Witten and T.C. Bell. The Zero-Frequency Problem: Estimating the Probabilities of Novel Events in Adaptive Text Compression.

Презентация с семинара (ppt)

Распределённые хэш-таблицы на примере NoSQL СУБД Cassandra (30.11.10)

Доклад посвящен системе Cassandra — распределенной Key/value СУБД,
специально созданной Facebook для покрытия основных требований этой
наиболее популярной соц. сети: устойчивость к сбоям отдельных
серверов, надежность, быстрота, простота масштабируемости. Будет
рассказано об особенностях архитектуры всей системы в целом, а также о
специфике работы использующихся в системе алгоритмов, обеспечивающих
её быстроту и надежность. В докладе дополнительно будет рассмотрен
принцип работы приложений Facebook с системой Cassandra на примере
Facebook Inbox Search.

Докладчик: Сиващенко Дмитрий

Материалы:

Avinash Lakshman, Prashant Malik. Cassandra — A Decentralized Structured Storage System. (pdf)
Frank Dabek. A Distributed Hash Table. PhD thesis. (pdf)

Презентация с семинара (pdf)

Обзор методов морфологического разбора русского языка (23.11.10)

Морфологический анализ — важная составляющая систем автоматической обработки естественных текстов. В её задачи входит усечение слова до основной формы (стемминг), поиск других форм данного слова, определение числа, падежа, рода и т.д. В докладе будут рассмотрены подходы к решению этих задач для русского языка, применяемые в таких проектах как mystem, АОТ, russianmorphology, а также метрики качества морфологического разбора.

Докладчик: Бартунов Сергей

Материалы:

Презентация с семинара (pdf)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Archive for the ‘Аннотации’ Category

Распределённые key-value хранилища: Amazon Dynamo, Project Voldemort, Riak

Распределённые NoSQL базы данных: Google BigTable, Hadoop HBase, HyperTable (05.04.11)

Модели распределенной обработки данных (29.03.11)

Распределенные алгоритмы машинного обучения (22.03.11)

Обзор стека технологий Apache Hadoop для распределённой обработки данных. Распределённая файловая система HDFS

Параллельное и распределенное программирование: современные вызовы (01.03.11)

Марковские модели (14.12.10)

Языковые модели (7.12.10)

Распределённые хэш-таблицы на примере NoSQL СУБД Cassandra (30.11.10)

Обзор методов морфологического разбора русского языка (23.11.10)