美文网首页
大数据之Hadoop流存储

大数据之Hadoop流存储

作者: 陌名_9b41 | 来源:发表于2018-10-12 11:39 被阅读0次

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

      HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。

      Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

      HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

      实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据经过 NameNode。

  Hadoop 的MapReduce 却是一个高度抽象的并行编程模型,它将分布式并行编程抽象为两个原语操作,即map 操作和reduce 操作

 map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。

  reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。

NameNode的metadata信息在启动后会加载到内存中

文件包括:

① fsimage (文件系统镜像):元数据镜像文件。存储某一时段NameNode内存元数据信息。

② edits: 操作日志文件。默认大于64M强制检查

③ fstime: 保存最近一次checkpoint的时间

block是hdfs读写数据的基本单位。

客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说,这个对象时分布文件系统的一个实例;

DistributedFileSystem通过使用RPC来调用NameNode以确定文件起始块的位置,同一Block按照重复数会返回多个位置,这些位置按照Hadoop集群拓扑结构排序,距离客户端近的排在前面;

前两步会返回一个FSDataInputStream对象,该对象会被封装成DFSInputStream对象,DFSInputStream可以方便的管理datanode和namenode数据流,客户端对这个输入流调用read()方法;

存储着文件起始块的DataNode地址的DFSInputStream随即连接距离最近的DataNode,通过对数据流反复调用read()方法,可以将数据从DataNode传输到客户端;

到达块的末端时,DFSInputStream会关闭与该DataNode的连接,然后寻找下一个块的最佳DataNode,这些操作对客户端来说是透明的,客户端的角度看来只是读一个持续不断的流;

一旦客户端完成读取,就对FSDataInputStream调用close()方法关闭文件读取。

加工/计算层(MapReduce)是一种并行编程模型,以及

存储层(Hadoop分布式文件系统),hdfs

Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具。(通用工具)

Hadoop YARN :这是作业调度和集群资源管理的框架。

相关文章

  • 大数据之Hadoop流存储

    通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hiv...

  • 大数据入门学习之Hadoop技术优缺点

    大数据入门学习之Hadoop技术优缺点 (1)Hadoop具有按位存储和处理数据能力的高可靠性。 (2)Hadoo...

  • 搭建 Hadoop ubuntu 16.04

    关于 Hadoop hadoop可以作为分布式存储框架存储大规模数据 Hadoop生态4层架构: 底层:存储层,文...

  • hadoop 环境配置

    hadoop # 数据存储 # 数据分析 common # 工具类支持 hdfs # 文件存储...

  • 好程序员大数据培训学习之Hadoop技术优缺点

    好程序员大数据入门学习之Hadoop技术优缺点 (1)Hadoop具有按位存储和处理数据能力的高可靠性。 (2)H...

  • Hadoop简介

    Hadoop概述 Hadoop是一个适合海量数据存储的分布式存储和分布式计算的平台。 Hadoop Modules...

  • 2018-09-03

    Hadoop提供了用于存储数据的HDFS(Hadoop Distributed File System),不过还有...

  • mapreduce

    在了解了Hadoop的组建以及底层框架之后我们知道,Hadoop的底层是通过HDFS进行数据的存储,将数据存储到集...

  • 与 Hadoop 对比,如何看待 Spark 技术?

    Hadoop 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台...

  • 与 Hadoop 对比,如何看待 Spark 技术?

    Hadoop 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台...

网友评论

      本文标题:大数据之Hadoop流存储

      本文链接:https://www.haomeiwen.com/subject/fvwwaftx.html