Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行(具体的Hive架构大家自行搜索)。接下来主要讲下Hadoop集群下Hive的安装配置,并搭载Derby数据库(一款小巧的数据库,用于测试,不推荐开发使用,具体大家自行百度),进行一些基本的数据库操作,好了,让我们开始吧。
一、环境:同样的启用三个节点,分别是虚拟机slave01,slave02,slave03,基于之前已经搭建好的环境,包括JDK、Zookeeper、Hadoop
二、Hive、Derby配置(自行解压)
这里推荐下载版本较低的Hive,本人经验教训告诉大家:高版本易出现问题,比如说我的Hadoop 2.7.6,下载Hive 2.2.0 安装配置后就出现了很多问题,体验极差,像 报错为:
就属于版本过高导致的,所以,大家尽量下载低版本的。
(1)设置Hive、Derby环境变量
添加HIVE_HOME、DERBY_HOME,如下:
使文件生效,运行命令:
(2)修改Hive文件夹conf目录下配置文件 hive-env.sh
复制一份 hive-env.sh.template 重命名为 hive-env.sh:
修改 hive-env.sh 内容:
(3)配置Hive的Metastore
配置Metastore意味着,指定要Hive的数据库存储,同样,Hive/conf目录下,复制一份 hive-default.xml.template重命名为 hive-site.xml:
修改 hive-site.xml 内容,由于里面原内容较多,可通过命令gedit以编辑器模式打开:
删除所有的配置,替换为:
其中,<value>jdbc:derby:;databaseName=metastore_db;create=true</value> 表示使用嵌入式的derby,create为true表示自动创建数据库,数据库名为metastore_db,另一种客服模式大家感兴趣的可以自己看下;<value>org.apache.derby.jdbc.EmbeddedDriver</value> 表示使用嵌入式的derby;warehouse文件夹手动创建。
三、验证Hive
运行Hive之前,需要创建/tmp文件夹在HDFS独立的Hive文件夹,并给这些新创建的文件夹写权限:
启动Hive前,先启动Hadoop集群,注意关闭防火墙,再然后启动Hive,首次启动可能会出现一个报错提示:
虽然过了几秒后Hive仍然成功启动,但这个报错信息是怎么回事呢?
原因:spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。
解决办法:进入hive安装路径下的bin目录下,编辑hive,如通过编辑器打开:gedit hive,找到下面的Shell脚本命令:
修改为:
好了,让我们再次启动Hive,成功启动如下:
以上就是基于Hadoop集群Hive+derby的安装配置过程,当然对于数据库的选择比如mysql配置过程类似,大家自行参考资料。接下来就是Hive对数据库的操作了,敬请期待吧!
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解
想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家
并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
网友评论