HDFS和MapReduce概述笔记

19 November 2015

HDFS体系结构

Master-Slave

快速检测应对硬件错误
流式访问数据
转移计算比移动数据本身更划算
简单一致性模型

HDFS的读取流程：

MapReduce体系结构

分布式编程架构
以数据为中心，看中吞吐率
分而治之
Map将一个任务分解成多个子任务
Reduce将分解后的任务分别进行处理，并汇总结果为最终结果

体系结构图

Master-Slave

基本概念：

作业
任务
键值对
JobTracker
TaskTracker

Hadoop的运行模式

单机模式伪分布式模式完全分布式模式

HDFS 1

HDFS 1

blog comments powered by Disqus