背景介绍
- hive-testbench是有名的hive测试数据集,可以作为基准性能测试,其中包括TPC-DS和TPC-H两大数据集。
- TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。
- TPC-H是一款面向商品零售业的决策支持系统测试基准,它定义了8张表,22个查询,遵循SQL92。TPC-H基准的数据库模式遵循第三范式。
相关问题及解决
- 生成数据是基于分支hdp26,在执行./tpcds-build.sh的时候报了一下的错误
Building TPC-DS Data Generator
test -d target/tools/ || (cd target; unzip tpcds_kit.zip)
Archive: tpcds_kit.zip
End-of-central-directory signature not found. Either this file is not
a zipfile, or it constitutes one disk of a multi-part archive. In the
latter case the central directory and zipfile comment will be found on
the last disk(s) of this archive.
unzip: cannot find zipfile directory in one of tpcds_kit.zip or
tpcds_kit.zip.zip, and cannot find tpcds_kit.zip.ZIP, period.
make: *** [Makefile:19: target/tools/dsdgen] Error 9
TPC-DS Data Generator built, you can now use tpcds-setup.sh to generate data.
- 从上面显示是因为tpcds_kit.zip这个包不是标准的zip格式,因此无法解决。其实可以用vim打开zip包,发现里面包含了一句 http://dev.hortonworks.com.s3.amazonaws.com Access denied。如你现在在浏览器数据上述的地址也会看到拒绝。
image.png -
那么老地址拒绝那么换新地址?新地址又是那个?在网上搜索了一圈没有找到答案,看了项目相关的issue倒是挺多关于这个问题的。因此我尝试编译hdp3这个分支,在里面找到了答案,详情可见git上我的回答。
git上的回答
网友评论