Hive出现数据倾斜的原因:
1)、key分布不均匀
2)、业务数据本身的特性
3)、建表时考虑不周
4)、某些SQL语句本身就有数据倾斜
Hive出现数据倾斜的表现:
任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。最长时长远大于平均时长。
Hive:sort by和order by的区别:
Order by全局排序
sort by是分组有序,全局无序,一般用法是distribute + sort by
删除目录下的所有类似名称数据:
drwxr-xr-x3 root root 4096 Nov 15 03:16 '2016-11-14'
drwxr-xr-x3 root root 4096 Nov 16 04:55 '2016-11-15'
drwxr-xr-x3 root root 4096 Nov 17 03:19 '2016-11-16'
drwxr-xr-x3 root root 4096 Nov 18 08:51 '2016-11-17'
drwxr-xr-x 19 root root 4096 Nov 18 08:56gdpv
drwxr-xr-x 19 root root 4096 Nov 18 08:54gdvod
drwxr-xr-x 19 root root 4096 Nov 18 08:40pvlog
[root@hive-m dataftp]# rm -rf \'2016-11-*
网友评论