spark--当分组遇到排序的解决思路

作者: 大数据首席数据师 | 来源:发表于2018-12-20 15:17 被阅读9次

spark--当分组遇到排序的解决思路
spark--当分组遇到排序的解决思路
排序算法 --- 希尔排序
thinkphp group by 组内排序写法
统计一下每一个月份中，温度最高top2
Coffee Break(Set,贪心）
使用sort对类似于1-1、2-1、1-1-1、2-2类型的数据
希尔排序
java stream groupingby分组后排序重构val
经典排序算法-希尔排序Shell sort

场景

现在有如下数据格式

图书分类，图书名，数量

现在想统计全部分类中数量最多的书名以及数量

场景解析

如果不基于spark，我们来思考这个问题，数据量大内存是放不下，分类也不确定有多少类，图书名可能有重复，还需要合并计算。这种情况只能是分治，首先分类，把文件首先按照分类拆分成多个文件，每个文件中的数据都是图书名数量，然后根据图书名对数量进行合并，最后进行排序。整理了一份适合2018年学习的大数据资料需要的加群QQ群：834325294 注明简书既可免费获取

spark思维转化

上面的思路单独写这个程序没问题，但是如果基于spark就有点问题了，首先是分区的事情，想把数据准确落在不同的分区，且不重复，必须要先知道到底有多少分区。所以首先要统计分类种类，帮助以后分区。

分区器

有了数据就要应用分区器

直接根据已经生成好的数据来进行分区。保证1个分类1个分区，这样就可以以后的部分就只关注排序即可。

数据合并

分区，分区器都准备好了，按照以前的思路，是不是应该把数据分散在不同的分区了。想法挺好，但是在分布式存储中，数据移动的成本很高，所以都是先对本地数据进行处理合并，减小数据量然后才进行数据的shuffle等分区操作，所以这里我们要做的其实是合并同类数据。

这里是一个典型的单词计数的案例。

接下来就是想着分区，然后排序，如果你查查api的话，你会发现并没用按照value排序的算子。如果要排序的话，一定是key。这里发生了一个冲突点，就是你是按照type分区，次数的type就是key，接下来排序，其实就是按照type来排。发现了我们要依赖key完成两件事，一个是分区，一个是排序。分区靠type，排序靠count。这里的解决方案就是用对象。计数之后，得到的结果会是一个<bookname,totalcount>的tuple。这个明显无法继续下去了，你连分区的条件都没了。 bookname和type是一一对应的，所以这里合并统计的是bookname+type的结构体。这样就满足了分区的条件了。为了把排序的因子给加上，我们做个map操作，把type和count组织成一个对象。