美文网首页
HDFS block数据块一些思考

HDFS block数据块一些思考

作者: Moon_魔宽 | 来源:发表于2018-12-28 11:20 被阅读0次

版权声明:本文为博主原创文章,未经博主允许不得转载。https://www.jianshu.com/p/fadf674d7856

HDFS block数据块

block数据块是HDFS文件系统的基本存储单位,默认大小64M(Hadoop2.0版本以下),很多情况下HDFS使用128MB的块设置,比磁盘的块大很多(差不多4K大小),其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显大于定位这个块起始位置所需要的时间。因而,传输一个由多个块组成的文件的时间取决于磁盘传输速率。

eg:

如果寻址时间约为10ms,而传输速率为100MB/s,为使寻址时间仅占传输时间的1%,要将块大小设置约为100MB。随着新一代磁盘驱动器传输速率的提升,块的大小将被设置的更大。

由于一个MR的map任务通常一次只处理一个块的数据,因此如果块太大,map数太少(少于集群中节点数量),并发性能就会下降。因此也不宜设置太大。

block数据块设置较大原因归结三点:

1)减少文件寻址时间

2)减少管理块的数据开销,每个块都需要在NameNode上有相应记录

3)对数据块进行读写,减少建立网络的连接成本

【小文件block的占用】

如果HDFS上的一个文件(file size)太小,比如2.5MB,小于块大小(block size),那么这个小文件实际上占用linux file system的大小是实际的文件大小即2.5MB。

HDFS中文件块目录结构具体格式如下:

${dfs.datanode.data.dir}/

├── current

│ ├── BP-526805057-127.0.0.1-1411980876842

│ │ └── current

│ │ ├── VERSION

│ │ ├── finalized

│ │ │ ├── blk_1073741825

│ │ │ ├── blk_1073741825_1001.meta

│ │ │ ├── blk_1073741826

│ │ │ └── blk_1073741826_1002.meta

│ │ └── rbw

│ └── VERSION

└── in_use.lock

in_use.lock表示DataNode正在对文件夹进行操作

rbw是“replica being written”的意思,该目录用于存储用户当前正在写入的数据。

Block元数据文件(*.meta)由一个包含版本、类型信息的头文件和一系列校验值组成。校验和也正是存在其中。

相关文章

  • HDFS block数据块一些思考

    版权声明:本文为博主原创文章,未经博主允许不得转载。https://www.jianshu.com/p/fadf6...

  • Hadoop HDFS操作指南

    1 HDFS 组成架构 NameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息...

  • Datandoe数据节点

    Datanode以存储数据块(Block)的形式保存HDFS文件 同时Datanode还会响应HDFS客户端读、写...

  • HDFS(2)- 概念

    1、数据块(block) 数据块是磁盘读/写的最小单位,每个磁盘都有默认的数据块大小。HDFS作为分布式文件系统也...

  • HDFS详解-01

    HDFS详解-01 作业: HDFS详解: 1.三个进程 2.block(数据块) 3.副本数: 4.案例 5.架...

  • 面试必看:Hadoop源码2.X概述

    1 HDFS基本概念 数据块(Block) 128M 最小处理单元 冗余备份 名字节点(NameNode) 管...

  • HDFS

    block块 1.1 如何找对应版本的HDFS的blocksize 官网上hdfs-default.xml找到对应...

  • 11-HDFS详解一

    1.HDFS进程 NN:名称节点 DN:数据节点 SNN: 第二名称节点 2.block(数据块) 大小:64M ...

  • HDFS

    HDFS:Hadoop分布式文件系统。 文件系统的块(Block):是磁盘块的整数倍,HDFS默认块的大小为64M...

  • 源码|HDFS之DataNode:写数据块(3)

    源码|HDFS之DataNode:写数据块(1)、源码|HDFS之DataNode:写数据块(2)分别分析了无管道...

网友评论

      本文标题:HDFS block数据块一些思考

      本文链接:https://www.haomeiwen.com/subject/jnrslqtx.html