美文网首页
HDFS-为什么我们需要HDFS

HDFS-为什么我们需要HDFS

作者: VVictoriaLee | 来源:发表于2017-08-13 23:06 被阅读0次

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。很多时候,我们就叫它DFS(Distributed File System)。


Hadoop 是一个以一种可靠、高效、可伸缩的方式进行处理的,能够对大量数据进行分布式处理的系统框架。所以可以理解为hadoop是一个框架,HDFS是hadoop中的一个部件。

Paste_Image.png

文件系统是对文件存储器空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。

为什么我们需要HDFS:

1.数据量巨大,磁盘开始很纠结的处理我们需要的海量信息。所以需要文件系统有大规模数据分布存储能力

2.读取一块磁盘的所有数据需要很长时间,写入更是需要更长时间(写入时间一般是读取时间的3倍)即使有文件为1ZB,或者小点10EB时,这样的磁盘也无法做到随读随取。所以需要文件系统有高并发访问能力

Paste_Image.png
  1. 当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上
Paste_Image.png
  1. 从概念图上看,分布化的文件系统会因为分布后的结构不完整,导致系统复杂度加大,并且引入的网络编程,同样导致分布式文件系统更加复杂。所以需要强大的容错能力
    Paste_Image.png
Paste_Image.png
  1. HDFS解决以上方案是分片冗余,本地校验,需要数据块存储模式
    Paste_Image.png
Paste_Image.png

数据冗余式存储,直接将多份的分片文件交给分片后的存储服务器去校验。


Paste_Image.png

冗余后的分片文件还有个额外功能,只要冗余的分片文件中有一份是完整的,经过多次协同调整后,其他分片文件也将完整。
经过协调校验,无论是传输错误,I/O错误,还是个别服务器宕机,整个系统里的文件是完整的。


Paste_Image.png
  1. 分布后的文件系统有个无法回避的问题,因为文件不在一个磁盘导致读取访问操作的延时,这个是HDFS现在遇到的主要问题。
    现阶段,HDFS的配置是按照高数据吞吐量优化的,可能会以高时间延时为代价。但万幸的是,HDFS是具有很高弹性,可以针对具体应用再优化。

相关文章

  • HDFS-为什么我们需要HDFS

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS...

  • (十)大数据学习之sqoop

    Sqoop 1.架构: (1)flume数据采集 采集日志数据(2)sqoop数据迁移 hdfs->mysql(3...

  • HDFS-数据流

    copyFromLocal的流程 三个节点之间是一种流式的关系 1)客户端通过Distributed FileSy...

  • YARN参数调优yarn-site.xml

    (1)情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive面临问题:...

  • HDFS-分布式文件系统

    前言 在大数据场景中,大量数据是以文件形式储存的,典型的是行为日志数据(用户搜索日志,购买日志,点击日志,以及机器...

  • HDFS理解

    引子 为什么需要HDFS? 因为一个物理计算机的存储已经hold不住我们庞大的数据集。 HDFS的特点是什么? H...

  • Hadoop大数据平台架构与实践 | HDFS

    课程地址:HDFS基本概念HDFS官方文档 目录 1、为什么需要分布式文件系统2、HDFS对文件的读取方式:流处理...

  • HDFS中API的使用

    在项目开发中,有时我们需要通过HDFS的api来对文件进行操作,比如将数据上传到HDFS或者从HDFS获取数据等。...

  • HDFS基本使用

    HDFS 指令 通常需要在LINUX控制台查询HDFS相关信息,此时就需要使用到HDFS相关命令。 dfs相关命令...

  • HDFS 单节点环境搭建

    HDFS 作为hadoop 生态的一部分,部署HDFS即需要部署Hadoop。 这里由于节点数量有限,所以我们选择...

网友评论

      本文标题:HDFS-为什么我们需要HDFS

      本文链接:https://www.haomeiwen.com/subject/gzzerxtx.html