二、Hadoop核心HDFS

作者: 骑猴摘月亮 | 来源:发表于2019-07-23 17:32 被阅读0次

Hadoop=HDFS（分布式文件系统）+MapReduce（分布式计算的解决方案）

1、HDFS概念

HA：高可用

数据块：是抽象块而非整个文件作为存储单元

默认大小64MB，一般设置为128M，备份X3

NameNode：一个

管理文件系统的命名空间，存放文件元数据

维护这文件系统的所有文件和目录，文件与数据块的映射

记录每个文件中各个块所在数据节点的信息

DataNode：多个

存储并检索数据块

向NameDode更新所存储块的列表

缺点：

不适合大量小文件存储

不适合并发写入，不支持文件随机修改

不支持随机读等低延时的访问方式

优点：

适合大文件存储，有副本策略

可以构建再廉价的机器上，有一定的容错和恢复机制

支持流式数据访问，一次写入，多次读取最高效

2、读写流程

写流程：

读流程：

3、HDFS实战

copyFromLocal

copyToLocal

get：下载文件

put：上传文件

【hdfs dfs -ls /】：查看根目录下的文件

网友评论

本文标题：二、Hadoop核心HDFS

本文链接：https://www.haomeiwen.com/subject/iiynlctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！