96.1 演示环境介绍
- root用户操作
- RedHat版本:7.3
96.2 操作演示
1.准备环境
clone hive-testbench源码下载:
https://github.com/hortonworks/hive-testbench.git
下载至本地目录
[root@ip-186-31-16-68 ~]# git clone https://github.com/hortonworks/hive-testbench.git
安装hive-testbench编译依赖环境
[root@ip-186-31-16-68 ~]# yum -y install gcc gcc-c++
2.编译hive-testbench并打包
进入hive-testbench目录
[root@ip-186-31-16-68 ~]# cd hive-testbench/
[root@ip-186-31-16-68 hive-testbench]# ll
在hive-testbench目录下执行如下脚本进行编译打包
[root@ip-186-31-16-68 hive-testbench]# ./tpcds-build.sh
3.生成并加载数据
- 在hive-testbench目录下执行如下脚本生成并加载测试数据
- 10表示生成的数据量大小GB单位
- /extwarehouse/tpcds表数据数据生成的目录,目录不存在自动生成,如果不指定数据目录则默认生成到/tmp/tpcds目录下
[root@ip-186-31-16-68 hive-testbench]# ./tpcds-setup.sh 10 /extwarehouse/tpcds
- 等待脚本执行成功
- 如成功生成了测试数据并创建了tpcds_text_10和tpcds_bin_partitioned_orc_10两个数据库
- 在命令行查看HDFS上的数据是否与指定的量一致
- 通过Hue验证生成的测试数据
4.总结
在编译hive-testbench项目时需要有外网环境,在编译的过程会下载Maven的安装包、下载Maven依赖以及TPC-DS的源码通过脚本的方式运行TPC-DS的99条SQL来做Hive、Impala、Presto等服务的基准测试
大数据视频推荐:
腾讯课堂
CSDN
大数据语音推荐:
企业级大数据技术应用
大数据机器学习案例之推荐系统
自然语言处理
大数据基础
人工智能:深度学习入门到精通
网友评论