本文是在CentOS7.4 下进行CDH6集群的完全离线部署。CDH5集群与CDH6集群的部署区别比较大。 说明:...[作者空间]
IDEA下meavn开发scala程序,一般有两种方式: 第一种:安装好Scala, 通过IDEA Scala插件...[作者空间]
HBase是什么 HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能...[作者空间]
应用需求 通常在数据文件中包含大量的单词,每个单词可能会出现多次,需要根据单词查找文档,这时就需要用到倒排索引。 ...[作者空间]
用MapReduce实现关系的自然连接 假设有关系R(A,B)和S(B,C),对二者进行自然连接操作 使用Map过...[作者空间]
应用需求 在某些应用场合中,需要对数据文件中的大量记录某个属性进行排序,可是这个属性的记录太多,需要根据其他属性在...[作者空间]
应用需求 通常在数据文件中包含大量的记录,每条记录中包含了这个事物的某个属性,需要根据这个属性对数据进行排序。 解...[作者空间]
一、文档目的 近期在CDH 6.1.x中部署Tez 0.9.1,踩到很多坑,主要还是CDH集群版本较高,导致所用教...[作者空间]
应用需求 在大数据文件中包含了大量的记录,每条记录记载了某事物的一些属性,需要根据某几个属性的组合,去除相同的重复...[作者空间]
在上一篇博客中:Windows下使用eclipse编译打包运行自己的MapReduce程序 中,开发完成的jar包...[作者空间]
一、相关文件准备 1. java JDK for Windows 2. hadoop-2.6.4.tar.gz 就...[作者空间]
一、环境搭建 1.使用VirtualBox创建三台Ubuntu Server 14.04(64 位)虚拟机 首先,...[作者空间]