背景:记录公司内部大数据集群各框架版本
组件 | 版本 |
---|---|
Cloudera Manager | 5.13.1 |
Flume | 1.6.0 |
Hadoop | 2.6.0 |
MapReduce | 2.6.0 |
HDFS | 2.6.0 |
YARN | 2.6.0 |
HBase | 1.2.0 |
Hive | 1.1.0 |
Hue | 3.9.0 |
Impala | 2.10.0 |
Java | Java8 |
Oozie | 4.1.0 |
ZooKeeper | 3.4.5 |
CDH5的版本,过于老旧,很多性能在后面的版本中都得到了优化。
例如:
- 对于小文件的优化问题。在该版本中需指定分桶数来指定产生的文件数;但在之后的版本中会默认优化小文件。无需指定分桶。
- 指定分桶须考虑分桶字段是否合理,分桶数是否合理。若不合理,可能会产生反面效果,导致sql执行变慢。
网友评论