Mapreduce
论文地址: MapReduce: Simplified Data Processing on Large Clusters
Mapreduce分布式编程模型,理解起来比较简单,主要总结一下模型+实现细节
编程模型
将任务划分为Map和Reduce两个阶段由用户实现,每个阶段输入输出key-value对(形象理解可以看论文中的例子)

- Map 输入key-value,经过处理输出新的中间 key-value对,由MapReduce执行程序,将相同中间key聚集发送给某一个reduce执行程序
- Reduce 输入一个中间key和key对应的value列表,reduce执行具体聚集操作后,获得最终的输出key-value