Hadoop核心项目

作者: 程序员1 | 来源:发表于2018-08-22 10:08 被阅读6次

深入理解HDFS
Hadoop核心项目
Hadoop 安装和配置
Hadoop (Version2.9,JDK7) hdfs安装
hadoop简介
大数据技术原理与应用：大数据处理架构Hadoop生态圈
宏观了解之hadoop生态圈
MapReduce（二）：分片
大数据基础概念
即将开始...

核心项目

HDFS的架构

Yarn的架构

MapReduce的架构

Storm的架构

分布式存储系统HadoopDFS。它是一种本地文件系统之上的更高的抽象，把跨节点的组成的文件系统看成一个逻辑上的整体。它存储的思路是，把文件分成一个个block，每个block都有一定量的副本存储在不同的节点上，默认数量是3个，这保证了分布式存储的数据的稳定性。

HDFS的架构有NameNode、SecondaryNameNode、DataNode。NameNode节点主要负责客户端传来的读写请求，保存文件的metadata。SecondaryNameNode负责帮助NameNode合并editlog。DataNode负责储存Block，向NameNode汇报block信息、发送heartbeat。

HDFS写入文件的时候：客户端通过RPC向NN调用create()方法，NN检查文件是否存在，不存在并且有权限的话就会创建一个新文件，向客户端返回一个FSDataOutputStream，用于写数据。

HDFS读文件的时候，客户端通过RPC向NN调用open()方法，NN获得每个数据块的位置信息，返回客户端FSDataInputstream，客户端调用其read()方法读取数据块。

分布式计算框架中最流行的是MapReduce。它把并行计算、容错等细节问题封装到库里，程序员只需要编写map和reduce函数就可以了。这种模型的灵感来自函数式编程中的map和reduce原语。Map函数接受KV值，输出KV值，reduce函数接收KEY和相同key构成的value的集合的迭代器，再输出KV值。

深入理解HDFS
一、HDFS介绍 HDFS（Hadoop Distributed File System）是Hadoop项目的核心...
Hadoop核心项目
核心项目 HDFS的架构 Yarn的架构 MapReduce的架构 Storm的架构分布式存储系统HadoopD...
Hadoop 安装和配置
Hadoop的核心就是HDFS和MapReduce 首先安装Hadoop 下载 Hadoop，解压到本地目录或使用...
Hadoop (Version2.9,JDK7) hdfs安装
各版本hadoop文档地址 Hadoop的框架最核心的设计就是：HDFS（Hadoop Distributed F...
hadoop简介
Hadoop目的 Hadoop包含的模块 Hadoop的两个核心组成： HDFS概念 MapReduce Word...
大数据技术原理与应用：大数据处理架构Hadoop生态圈
Hadoop生态圈概述 Hadoop简介什么是Apache hadoop？Apache Hadoop项目是以可靠...
宏观了解之hadoop生态圈
Apache Hadoop 简称 Hadoop,有两个核心组件: 分布式文件系统 (Hadoop Distribu...
MapReduce（二）：分片
概述基于Hadoop 2.x 核心方法：org.apache.hadoop.mapreduce.JobSubmi...
大数据基础概念
1、什么是大数据？ 2、Hadoop是什么？ 3、Hadoop核心 4、HDFS总结 5、Hadoop基础架构 H...
即将开始...
Hadoop如何实现分布式 Hadoop怎样在运行 7、Hadoop核心MapReduce例子说明二、分布式文件...