美文网首页
hive-testbench项目构建cds数据集合失败

hive-testbench项目构建cds数据集合失败

作者: _Kantin | 来源:发表于2021-06-20 15:16 被阅读0次

    背景介绍

    • hive-testbench是有名的hive测试数据集,可以作为基准性能测试,其中包括TPC-DS和TPC-H两大数据集。
    • TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。
    • TPC-H是一款面向商品零售业的决策支持系统测试基准,它定义了8张表,22个查询,遵循SQL92。TPC-H基准的数据库模式遵循第三范式。

    相关问题及解决

    • 生成数据是基于分支hdp26,在执行./tpcds-build.sh的时候报了一下的错误
    Building TPC-DS Data Generator
    test -d target/tools/ || (cd target; unzip tpcds_kit.zip)
    Archive:  tpcds_kit.zip
      End-of-central-directory signature not found.  Either this file is not
      a zipfile, or it constitutes one disk of a multi-part archive.  In the
      latter case the central directory and zipfile comment will be found on
      the last disk(s) of this archive.
    unzip:  cannot find zipfile directory in one of tpcds_kit.zip or
            tpcds_kit.zip.zip, and cannot find tpcds_kit.zip.ZIP, period.
    make: *** [Makefile:19: target/tools/dsdgen] Error 9
    TPC-DS Data Generator built, you can now use tpcds-setup.sh to generate data.
    
    • 从上面显示是因为tpcds_kit.zip这个包不是标准的zip格式,因此无法解决。其实可以用vim打开zip包,发现里面包含了一句 http://dev.hortonworks.com.s3.amazonaws.com Access denied。如你现在在浏览器数据上述的地址也会看到拒绝。
      image.png
    • 那么老地址拒绝那么换新地址?新地址又是那个?在网上搜索了一圈没有找到答案,看了项目相关的issue倒是挺多关于这个问题的。因此我尝试编译hdp3这个分支,在里面找到了答案,详情可见git上我的回答。


      git上的回答

    相关文章

      网友评论

          本文标题:hive-testbench项目构建cds数据集合失败

          本文链接:https://www.haomeiwen.com/subject/kdhsyltx.html