美文网首页
CDH7(CDP)使用

CDH7(CDP)使用

作者: 安申 | 来源:发表于2021-07-16 13:05 被阅读0次

    背景:由于CDH官方更新了CDP,所以其用户也纷纷进行相应更新。最近进入一个项目,客户使用的就是相对来说较新的CDH7.1.5

    组件 版本
    Cloud Manager 7.1.4
    Hadoop 3.1.1
    HDFS 3.1.1
    YARN 3.1.1
    HBase 2.2.3
    Hive 3.1.3
    Hue 4.5.0
    Impala 3.2.0
    jdk Java8
    Kafka 2.4.1
    kudu 1.13.0
    Oozie 5.1.0
    tez 0.9.1
    ZooKeeper 3.5.5
    zeppline 0.8.2

    目前使用发现两个新的特性:

    1.内外部表的存储路径

    CDH7默认统一了内外部表的存储路径

    • 内部表:/warehouse/tablespace/managed/hive/demo.db
    • 外部表:/warehouse/tablespace/external/hive/demo.db
      内外部表不指定存储路径,都默认存储在上述的路径上,相对来说方便管理

    2.使用insert overwrite出现数据骤增

    • 操作中使用insert overwrite操作,发现数据出现翻倍增长,经过排查发现


      image.png

      当对一张表进行insert overwrite操作时,会自动备份一份老的数据记为delta文件,然后产生一份新的数据base文件(待验证)。

    • 经调查,该问题由于cdh7默认建表为ACID的原因,导致其会进行备份历史数据
    • 但目前还不清楚其删除历史数据规律,或是否有配置设置删除多久前的数据

    相关文章

      网友评论

          本文标题:CDH7(CDP)使用

          本文链接:https://www.haomeiwen.com/subject/hjovpltx.html