数据结构与算法笔记day09：排序（归并排序|快速排序）

作者: 楠楠喜欢泡枸杞 | 来源:发表于2019-05-06 22:22 被阅读0次

排序算法-堆排序
算法与数据结构路线图
排序算法6：快速排序
java实现快速排序、归并排序、希尔排序、基数排序算法...
排序算法
前端基础整理 | 算法基础
[算法] - NlogN排序算法
web开发需要知道的几个算法
排序题
LeetCode大全

本节讲两个时间复杂度为O(nlogn)的排序算法：归并排序和快速排序，它们都用到了分治的思想。分治，顾名思义，就是分而治之，将一个大问题分解成小的子问题来解决，小的子问题解决了，大问题也就解决了。

这两种排序算法适合大规模的数据排序，比上节课讲的三种排序方法要更常用。

1归并排序

归并排序的核心思想是将要排序的数组从中间分成前后两部分，然后对两部分分别排序，再将排好序的两部分合并在一起，这样整个数组就都有序了。如下图所示：

分治思想和我们前面讲的递归很像，其实，分治算法一般都是用递归来实现的。分治是一种解决问题的处理思想，递归是一种编程技巧。（后面再展开来讲分治算法的思想，这节课还是以排序算法为主）

如何用递归代码来实现归并排序呢？

1）写出递推公式：merge_sort(p...r)=merge(merge_sort(p...q),merge_sort(q+1...r))

2）找到终止条件：p>=r

3）将递推公式翻译成递归代码。

Merge函数的实现思路：

代码如下：

运行结果：

总结一下：

第一，归并排序是稳定的排序算法。归并排序稳不稳定关键要看Merge函数，在合并的过程中，如果 A[p…q] 和 A[q+1…r] 之间有值相同的元素，那我们可以像伪代码中那样，先把 A[p…q] 中的元素放入tmp数组，这样就保证了值相同的元素，在合并前后的先后顺序不变。

第二，归并排序的时间复杂度是O(nlogn)。一个问题a分解为多个子问题b和c，如果我们定义求解a问题的时间是T(a)，求解b、c问题的时间是T(b)和T(c)，那我们就可以得到这样的递推公式：T(a)=T(b)+T(c)+K,其中K等于将两个子问题b、c的结果合并成问题a的结果所消耗的时间。

我们假设对n个元素进行归并排序需要的时间是 T(n)，那分解成两个子数组排序的时间都是 T(n/2)。我们知道，merge() 函数合并两个有序子数组的时间复杂度是 O(n)。所以，套用前面的公式，归并排序的时间复杂度的计算公式就是：

我们再进一步分解一下计算过程。

通过这样一步一步分解推导，我们可以得到 T(n) = 2^kT(n/2^k)+kn。当 T(n/2^k)=T(1) 时，也就是 n/2^k=1，我们得到 k=log2n 。我们将k 值代入上面的公式，得到 T(n)=Cn+nlog2n。如果我们用大 O 标记法来表示的话，T(n) 就等于 O(nlogn)。所以归并排序的时间复杂度是 O(nlogn)。

归并排序的执行效率与要排序的原始数组的有序成都无关，所以它的时间复杂度是非常稳定的，不管最好情况、最坏情况、还是平均情况，时间复杂度都是O(nlogn)。

第三，归并排序的空间复杂度是O(n)。归并排序有一个致命的弱点，就是它不是原地排序算法。它在合并两个有序数组为一个有序数组时，需要借助额外的存储空间，但是，尽管每次合并操作都需要申请额外的存储空间，但是在合并完成之后，临时开辟的内存空间就被释放掉了，在任意时刻，CPU只会有一个函数在执行，也就是只会有一个临时的内存空间在使用，而这个临时内存空间最大也不会超过n，所以空间复杂度是O(n)。

2快速排序

快排的思想是这样的：如果要排序数组中下标从p到r之间的一组数据，我们选择p到r之间的任意一个数据作为pivot（分区点），我们遍历p到r之间的数据，将小于pivot的放在左边，将大于pivot的放在右边，将pivot放在中间。这样数组p到r之间的数据就被分成了三个部分，前面p到q-1之间都是小于pivot的，中间是pivot，后面的q+1到r之间是大于pivot的，如下图所示：

根据分治、递归的处理思想，我们可以用递归排序下表从p到q-1之间的数据和下标从q+1到r之间的数据，直到区间缩小为1，就说明所有的数据都有序了。

1）递推公式：quick_sort(p…r) = quick_sort(p…q-1) + quick_sort(q+1, r)

2）终止条件：p >= r

代码：

其中的partition()分区函数就是随机选择一个元素作为pivot（一般情况下，可以选择p到r区间的最后一个元素），然后对A[p...r]分区，函数返回pivot的下标。

如果我们不考虑空间消耗的话，partition() 分区函数可以写得非常简单。我们申请两个临时数组 X 和 Y，遍历 A[p…r]，将小于 pivot 的元素都拷贝到临时数组 X，将大于 pivot 的元素都拷贝到临时数组 Y，最后再将数组X 和数组 Y 中数据顺序拷贝到 A[p…r]。

但是，如果按照这种思路实现的话，partition() 函数就需要很多额外的内存空间，所以快排就不是原地排序算法了。如果我们希望快排是原地排序算法，那它的空间复杂度得是 O(1)，那 partition() 分区函数就不能占用太多额外的内存空间，我们就需要在 A[p…r] 的原地完成分区操作。

原地分区函数的实现思路的伪代码，也就是我们最后的实现思路：

图片版的思路：

总结一下：

第一，快速排序是一种原地排序算法。

第二，快速排序是一种不稳定的排序算法。

第三，快速排序的时间复杂度是O(nlogn)。如果每次分区操作，都能正好把数组分成大小接近相等的两个小区间，那么快排的时间复杂度递推求解公式跟归并是相同的，但是这种情况是很难实现的。举一个极端情况的例子，如果数组中的数据原来已经是有序的了，比如，1,3,5,7,9，如果我们每次都选择最后一个元素作为pivot，那么每次分区得到的两个区间都是不均等的，我们需要进行大约n次分区操作，才能完成整个快排的过程。每次分区我们平均要扫描大约n/2个元素，这种情况下快排的时间复杂度就退化成了O(n^2)。但是，快排在大部分情况下的时间复杂度都可以做到O(nlogn)，只有在极端情况下才会退化成O(n^2)。

3归并排序和快速排序有什么区别？

可以发现，归并排序的处理过程是由下到上的，先处理子问题，然后再合并。而快排的处理过程是由上到下的，先分区，再处理子问题。归并虽然是稳定的、时间复杂度也和快排相同，但是它不是原地排序算法，因为它的合并函数无法在原地执行。而快排可以实现原地排序，解决了归并排序占用太多内存的问题。

（遗留了一个怎样找到一个数组中第K大元素的问题，下次复习的时候解决~）

内容小结

归并排序和快速排序是两种稍微复杂的排序算法，它们用的都是分治的思想，代码都是通过递归来实现，过程非常相似。理解归并排序的重点是理解递推公式和merge()合并函数，理解快排的重点是理解递推公式和partition()分区函数。归并排序在任何情况下时间复杂度都比较稳定，但它不是原地排序算法，空间复杂度比较高，所以没有快排应用广泛。快排虽然最快情况下的时间复杂度比较高，但是平均情况下时间复杂度和归并排序一样，而且它退化到最坏情况时间复杂度的概率非常小，并且有避免的办法。

戳这里查看源代码。