MapReduce – это модель распределенной обработки больших объемов данных. В докладе будет рассказано о Google MapReduce – первой реализации модели MapReduce, и об Apache Hadoop – реализации этой модели с открытым исходным кодом. Также будут рассмотрены и другие подходы для работы с большими данными: Microsoft Dryad и Sector/Sphere.

Докладчик: Гомзин Андрей

Материалы:

MapReduce, Sawzall:
MapReduce: Simplified Data Processing on Large Cluster
Interpreting the Data: Parallel Analysis with Sawzall

Apache Hadoop:
Hadoop: The Definitive Guide (глава 6)

Sector/Sphere:
Sector and Sphere: the design and implementation of a high-performance data cloud
Дополнительно: Processing Massive Sized Graphs Using Sector/Sphere

Microsoft Dryad:
Dryad: Distributed Data-Parallel Programs from Sequential Building Blocks
DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language

Презентация с семинара