美文网首页
分布式文件系统:HDFS介绍

分布式文件系统:HDFS介绍

作者: Summer_1981 | 来源:发表于2019-03-19 14:02 被阅读0次

HDFS 是一个 Apache Software Foundation 项目,是 Apache Hadoop 项目的一个子项目。Hadoop 非常适于存储大型数据(比如 terabytes 和 petabytes),并使用 HDFS 作为其存储系统。HDFS 允许用户连接多个集群中包含的节点 (普通个人计算机),那些集群上分布着一些数据文件。然后用户可以将那些数据文件作为一个无缝文件系统来进行访问和存储。对数据文件的访问通过一种流线型(streaming) 方式进行处理,这意味着应用程序或命令通过 MapReduce 处理模型直接执行。

HDFS 是容错的,且提供对大数据集的高吞吐量访问。这里探索 HDFS 的主要特性。

image

高级 HDFS 架构视图

HDFS 与其他分布式文件系统有许多相似点,但也有几个不同点。一个明显的区别是 HDFS 的 “一次写入、多次读取(write-once-read-many)” 模型,该模型降低了并发性控制要求,简化了数据聚合性,支持高吞吐量访问。

HDFS 的另一个独特的特性是下面这个观点:

将处理逻辑放置到数据附近通常比将数据移向应用程序空间更好。

HDFS 将数据写入严格限制为一次一个写入程序。字节总是被附加到一个流的末尾,字节流总是以写入顺序存储。

HDFS 有许多目标,下面是一些最明显的目标:

  1. 通过检测故障和应用快速、自动的恢复实现容错性

  2. 通过 MapReduce 流进行数据访问

  3. 简单可靠的聚合模型

  4. 处理逻辑接近数据,而不是数据接近处理逻辑

  5. 跨异构普通硬件和操作系统的可移植性

  6. 可靠存储和处理大量数据的可伸缩性

  7. 通过跨多个普通个人计算机集群分布数据和处理来节约成本

  8. 通过分布数据和逻辑到数据所在的多个节点上进行平行处理来提高效率

通过自动维护多个数据副本和在故障发生时自动重新部署处理逻辑来实现可靠性

相关文章

  • 三、、HDFS

    1. HDFS系统介绍 Hadoop 分布式文件系统HDFS(Hadoop Distributed File Sy...

  • 一. 介绍

    一、hadoop介绍 hadoop版本: cdh5.7.0 二、分布式文件系统HDFS 二 HDFS架构 Mast...

  • Hadoop文档(2.9.2) - HDFS架构

    介绍 Hadoop分布式文件系统(HDFS)是一种运行在通用硬件上的分布式文件系统。它与传统的分布式文件系统有很多...

  • Hadoop之HDFS

    本篇文章主要介绍分布式文件系统HDFS,常用的操作HDFS的命令 以及对应的JAVA API Hadoop分布式文...

  • HDFS体系结构指南

    原文 介绍 Hadoop分布式文件系统( HDFS )是一种分布式文件系统,设计用于在商品硬件上运行。它与现有...

  • 大数据Hadoop之HDFS认识

    源自Google的GFS(Google分布式文件系统)论文,分布式文件系统(HDFS)是GFS的克隆版。HDFS负...

  • 关于Hadoop中hdfs架构了解

    hadoop中hdfs的结构图 HDFS:分布式文件系统被设计成适合运行在通用硬件的分布式文件系统。HDFS是一个...

  • 认识Zookeeper

    zookeeper是一个类似hdfs(Hadoop分布式文件系统或HDFS是基于Java的分布式文件系统,允许您在...

  • HDFS基本架构及原理

    HDFS 概述 HDFS(Hadoop Distributed File System,Hadoop分布式文件系统...

  • 大数据基础

    HDFS分布式文件系统 MapReduce分布式计算框架

网友评论

      本文标题:分布式文件系统:HDFS介绍

      本文链接:https://www.haomeiwen.com/subject/agmgmqtx.html