按需要定制MapReduc
map和reduce可以用自己编程
目标在于多次的目标流读区,而不是读写
hdfs存储的是大量文本信息,适合做商业数据挖掘,既然是挖掘就在于要多次读,而不是一次次读写。因为写入成本高,每个文件要有三个副本
因此就导致了数据的高度容冗余
每个节点不需要raid 磁盘阵列
- radi -0
2块硬盘的倍数,因为需要成对
数据打散存储,两部分数据分别存储在2块硬盘。串行存储
-
raid -1
2块硬盘的倍数 -
raid -5
3块硬盘 -
raid-10(raid 1,0)
NameNode节点就一个,raid
DataNode:不需要raid
数据块
1版本是64M
2版本是128M。默认是存储3个副本,因此存储的总容量是*3
网友评论