大数据学习十五：Hive1.1.0编译及安装

作者: RacyFu | 来源:发表于2018-06-19 22:38 被阅读0次

大数据学习十五：Hive1.1.0编译及安装
（二）Tendermint 安装
Typescript 学习笔记六：接口
python入门学习路线及教程（python工程狮）
hive编译及安装配置
Centos 安装 NodeJS
CentOS7 部署php5.2.17+ZendOptimize
centos 安装配置ss5-3.8.9 搭建sock5 代理服
Nginx安装以及配置
构建CentOS httpd RPM包

1、使用CDH版本大数据组件可以避免在编程中遇到的jar包冲突等问题，下载地址：

http://archive.cloudera.com/cdh5/cdh/5/

2、Hive官方地址，https://hive.apache.org/

3、Hive简介：The Apache Hive是使用sql对分布式大数据集进行读写和管理操作的数据仓库，可以使用JDBC对结构化数据（MySQL\Oracle等）进行操作。使用sql语法来代替复杂的MapReduce获取结果数据的编码，且基于MapReduce进行底层计算。

4、相关概念

离线数据仓库：对数据进行定时批量处理计算，数据巨大、确定、保存时间长，可用来计算模型，如Spark SQL、HDFS+MapReduce+Hive(Hive存储最终的计算结果)。

实时数据仓库：对数据进行实时的一条一条的计算处理，如Spark Streaming、Flink

结构化数据：如Oracle\MySQL,每行一个实体，按建表定义每行有固定的顺序和属性，便于增删改查。

半结构化数据：有一定的结构和属性，但是结构顺序不一定固定，属性也不一定要完整，如XML、Json文件。

非结构化数据：没有固定的结构和属性，如文本文件、图片、视频等。

5、编译

$ tar -zxvf hive-1.1.0-cdh5.7.0-src.tar.gz

$ cd hive-1.1.0-cdh5.7.0

$ mvn clean package -P sources,hadoop-2 -DskipTests -Dtar #-P来源于pom文件中的<profile>中的<Id>属性

6、安装配置

Hive默认数据库为Derby，此处使用MySQL，准备MySQL5.1.7驱动包，将驱动包拷贝到

/home/hadoop/app/hive-1.1.0-cdh5.7.0/lib目录下。

$ cd /home/hadoop/app/hive-1.1.0-cdh5.7.0/conf

$ cp hive-env.sh.template hive-env.sh #该文件为配置Hive和Hadoop环境变量的配置文件，如果在.bash_profile文件中配置了的话，可以不配置

$ vi hive-site.xml #配置连接Mysql,图中红色部分为IP地址