分布式文件系统 HDFS

作者: you的日常 | 来源:发表于2021-12-21 10:57 被阅读0次

大数据Hadoop之HDFS认识
关于Hadoop中hdfs架构了解
认识Zookeeper
HDFS基本架构及原理
大数据基础
大数据工具Hadoop快速入门４-HDFS读写教程
HDFS
HDFS分布式文件系统原理及shell的使用
Hadoop HDFS分布式文件系统Docker版
二、Hadoop核心HDFS

HDFS 简介

什么是 HDFS？

image

HDFS 全称 Hadoop Distributed File System，Hadoop 分布式文件系统。它是 2003 年 10 月 Google 发表的 GFS（Google File System）论文的开源实现，之后成为 Apache Hadoop 的核心子项目，用于解决海量数据存储问题。它在开源大数据技术体系中，地位无可替代，到现在为止，依然是主流的大数据存储选型。

GFS 论文地址： http://nil.csail.mit.edu/6.824/2017/papers/gfs.pdf

设计目标

HDFS 的设计目标有：

可以运行在大量廉价商用机器上；因此硬件错误是常态，所以 HDFS 提供容错机制，来保证集群的安全性与数据的可靠性。
简单一致性模型：一次写入多次读取，支持追加，不允许修改，保证数据一致性。因为 HDFS 在数据存储时，会使用多副本机制保证数据的安全性；如果开放修改功能，首先会导致随机修改的出现，这在海量数据的分布式场景下无异是灾难，其次因为多副本的原因，数据修改后，其它副本的数据也一定要进行修改，从而保证数据一致性，这更加重了集群的负担。
流式数据访问：批量读而非随机读，关注吞吐量而非时间；HDFS 在设计时就是为了海量数据的存储而生，并且用于支持海量数据的离线批处理，而在离线批处理场景中，数据都是全部被读取后，进行批量处理，所以 HDFS 在设计上更注重数据的批量读而非随机读，保证数据处理时的吞吐效率。
存储大规模数据集：典型文件大小 GB~TB，关注横向线性扩展；这是 HDFS 设计的初衷，保证海量数据的存储。

`HDFS` 的优缺点

优点

HDFS 最大的优点在于它支持海量数据存储（典型文件大小 GB~TB，百万以上文件数量，PB 以上数据规模），是大数据存储的经典选型。

网友评论

本文标题：分布式文件系统 HDFS

本文链接：https://www.haomeiwen.com/subject/zpfebktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

分布式文件系统 HDFS

HDFS 简介

什么是 HDFS？

设计目标

`HDFS` 的优缺点

优点

相关文章

大数据Hadoop之HDFS认识

关于Hadoop中hdfs架构了解

认识Zookeeper

HDFS基本架构及原理

大数据基础

大数据工具Hadoop快速入门４-HDFS读写教程

HDFS

HDFS分布式文件系统原理及shell的使用

Hadoop HDFS分布式文件系统Docker版

二、Hadoop核心HDFS

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

分布式文件系统 HDFS

HDFS 简介

什么是 HDFS？

设计目标

HDFS 的优缺点

优点

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

`HDFS` 的优缺点