HDFS 块和 Input Splits 的区别与联系
HDFS 块和 Input Splits 的区别与联系(源码版)
- Split 和 HDFS Block 是一对多的关系;
- HDFS block 是数据的物理表示,而 Split 是 block 中数据的逻辑表示;
- 满足数据本地性的情况下,程序也会从远程节点上读取少量的数据,因为存在行被切割到不同的 Block 上。
因为存在某些行数据跨block,读取每个 Block 的时候都会从下一个 Block 多读取一行的数据,也就是说 in.read(buffer); 操作会读取两个 block 的数据。
网友评论