概述 1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘储存空间 压缩的缺点:增加CPU开销 2)压缩的原...[作者空间]
ETL "ETL"是英文Extract_transform-Load的缩写,用来描述将数据从来源端经过抽取(Ext...[作者空间]
Reduce Join Map端的主要工作:为来自不同表或文件的kv对,打标签以区别不同来源的记录。然后用连接字段...[作者空间]
OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapRedu...[作者空间]
MapTask工作机制 MapTask共分为五个阶段,分别为:Read阶段、Map阶段、Collect阶段、溢写阶...[作者空间]
Shuffle机制 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。 Partition分...[作者空间]
注意: 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体...[作者空间]
切片与MapTask并行度决定机制 1)问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到...[作者空间]
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce...[作者空间]
概述 1)压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘储存空间 压缩的缺点:增加CPU开销 2)压缩的原...[作者空间]
InputFormat数据输入 切片与MapTask并行度决定机制 1)问题引出 2)MapTask并行度决定机制...[作者空间]
序列化概述 什么是序列化 为什么要序列化 为什么不用Java序列化 hadoop序列化优势 结构紧凑,存储空间少 ...[作者空间]
DataNode工作机制 (1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本省...[作者空间]
NameNode存储 内存一份数据,fsImage存储数据(合并后的数据,即没有追加前数据),edits文件只追加...[作者空间]
首先新建一个maven工程,然后编辑pom文件,新增hadoop客户端以及junit的maven坐标。注意hado...[作者空间]
HDFS的写数据流程 1)客户端通过DistributedFileSystem模块想NameNode请求上传文件,...[作者空间]
基本语法 hadoop fs 具体命令hdfs dfs 具体命令hdfs -help rm 查看rm命令 上传 -...[作者空间]
HDFS产生背景及定义 HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操...[作者空间]
Hadoop组成 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦...[作者空间]
大数据概念 大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;需要新处理模式才能具有更强...[作者空间]