背景:由于CDH官方更新了CDP,所以其用户也纷纷进行相应更新。最近进入一个项目,客户使用的就是相对来说较新的CDH7.1.5
组件 | 版本 |
---|---|
Cloud Manager | 7.1.4 |
Hadoop | 3.1.1 |
HDFS | 3.1.1 |
YARN | 3.1.1 |
HBase | 2.2.3 |
Hive | 3.1.3 |
Hue | 4.5.0 |
Impala | 3.2.0 |
jdk | Java8 |
Kafka | 2.4.1 |
kudu | 1.13.0 |
Oozie | 5.1.0 |
tez | 0.9.1 |
ZooKeeper | 3.5.5 |
zeppline | 0.8.2 |
目前使用发现两个新的特性:
1.内外部表的存储路径
CDH7默认统一了内外部表的存储路径
- 内部表:/warehouse/tablespace/managed/hive/demo.db
- 外部表:/warehouse/tablespace/external/hive/demo.db
内外部表不指定存储路径,都默认存储在上述的路径上,相对来说方便管理
2.使用insert overwrite出现数据骤增
-
操作中使用insert overwrite操作,发现数据出现翻倍增长,经过排查发现
image.png
当对一张表进行insert overwrite操作时,会自动备份一份老的数据记为delta文件,然后产生一份新的数据base文件(待验证)。
- 经调查,该问题由于cdh7默认建表为ACID的原因,导致其会进行备份历史数据
- 但目前还不清楚其删除历史数据规律,或是否有配置设置删除多久前的数据
网友评论