Hive中的全排序：order by,sort by, dist

作者: 辉格食品 | 来源:发表于2017-03-29 10:38 被阅读0次

Hive中的全排序：order by,sort by, dist
Hive 1.2.1 排序
hive排序总结
Hive碎碎念（3）：order by，sort by，dist
R语言中的排序，集合运算，reshape，以及merge总结
Hive中order by、sort by、distribute
hive中order by,sort by, distribut
Hive中sort by，order by，cluster by
Hive高级查询
elasticsearch 提示Parse Failure [N

写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出，详见Hadoop简单实现全排序

现在学了hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？

事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的个数都是1了，结果自然全排序！

这也违背了充分利用分布式计算进行海量数据排序的初衷，效率低下。

那么hive又提供了一个可供选择的方式：sort by

它会保证每个reducer的输出文件是有序的（其实是废话，每个reducer的输出当然是有序的！），要想实现全排序，还得加一个order by的过程，就是对sort by的reduce输出结果再进行一次排序。

所以：

要想用hive实现全排序：

要么用order by，但这样默认了reducer个数为1，效率低下。

要么用sort by+order by，sort by过程可以设置reducer个数（n），order by过程用n个reducer的输出文件进行一次全排序，得到最终的结果。

（个人理解，如有错误请不吝赐教，感谢！）

注：

（1）对于order by，sort

by：

我们可以使用limit进行限制返回的行数，从而实现抓出数据的top N的情形。

（2）对于distribute by：

sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。hive的distribute by就派上用场了：

From table

select year, temperature

distribute by year

sort by year asc, temperature desc;

上面实现了局部排序，且规定了：根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中（文件下），可以看出，distribute by经常与sort by一起使用。

需要注意的是，hive要求distribute by要写在sort by之前。

（3）对于cluster by：

简而言之：cluster by column=distribute by column+sort by column（注意，都是针对column列，且采用默认ASC）

即对于上面例子：

From table

select year, temperature

cluster by year;

就等于：

From table

select year, temperature

distribute by year

sort by year;

当然这失去了按照气温排序的要求。

网友评论

本文标题：Hive中的全排序：order by,sort by, dist

本文链接：https://www.haomeiwen.com/subject/uwdtottx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hive中的全排序：order by,sort by, dist

相关文章