最近在学各种排序算法,刚好写成几篇文记录下来,方便以后查看。
快速排序(quicksort)的主要思想就是:选择一个基准元素,把小于基准的元素全部移到左边,大于基准的元素移到右边。然后对左边和右边的元素分别再进行排序,如此循环到每个小分组只剩下一个元素为止。
对元素的划分有两种算法。一个是Lomuto算法。
把第一个元素作为基准元素。从第二个开始遍历余下的元素,a[i]>=p则继续往前走,当遇到一个小于p的元素时,就停下来,将s增加1,再交换a[s],a[i]的元素。这样就保证比p小的元素永远在左边,比p大的元素永远再右边。
循环结束后,再交换a[s]和a[left]的值。使基准元素成为分界点。
另一个算法是Hoare算法。Hoare就是提出快速排序思想的人,图灵奖得主。
变量i跟踪小于基准的元素,从左到右遍历,遇到大于等于基准的元素就停下来。j跟踪大于基准的元素,从右到左遍历,遇到小于基准的元素就停下来,然后交换a[i]和a[j]。直到i,j相遇。再把基准元素和a[j]交换。比较麻烦的就是每次都要判断i是否溢出。
两个划分算法效率是一样的,个人认为Lomuto算法比较容易理解。
有了划分算法之后,要写快速排序就容易多了。
下面是用js写的原地排序(in-place):
还有另一种比较有js特色的快速排序实现,代码如下:
第二种快速排序实现有一个很大的缺点,就是很耗内存,对一个有n个元素的数组进行排序,每一次递归都要新建两个数组来存放两边的元素,最好情况下递归循环log n次,每次需要n个元素的空间,因此需要额外n(log n)的空间,加上创建数组需要一些额外开销。因此这种方法对于大数组而言就不合适了。
关于快速排序的效率:
所以它们的效率分别是:
关于快速排序的优化:
另一个算法是Hoare算法。Hoare就是提出快速排序思想的人,图灵奖得主。
变量i跟踪小于基准的元素,从左到右遍历,遇到大于等于基准的元素就停下来。j跟踪大于基准的元素,从右到左遍历,遇到小于基准的元素就停下来,然后交换a[i]和a[j]。直到i,j相遇。再把基准元素和a[j]交换。比较麻烦的就是每次都要判断i是否溢出。
两个划分算法效率是一样的,个人认为Lomuto算法比较容易理解。
有了划分算法之后,要写快速排序就容易多了。
下面是用js写的原地排序(in-place):
还有另一种比较有js特色的快速排序实现,代码如下:
第二种快速排序实现有一个很大的缺点,就是很耗内存,对一个有n个元素的数组进行排序,每一次递归都要新建两个数组来存放两边的元素,最好情况下递归循环log n次,每次需要n个元素的空间,因此需要额外n(log n)的空间,加上创建数组需要一些额外开销。因此这种方法对于大数组而言就不合适了。
关于快速排序的效率:
- 最好情况下,每次都刚好平均分为两个相同长度的分组,递归循环 log n 次, 键值比较次数为C(n)=2*C(n/2)+n,C(1)=0
- 最坏情况下,每次数组都会分成一边长度为0,一边长度为n-1的两个分组,递归循环 n-1次,键值比较次数为 n+(n-1)+(n-2)+……+1
- 平均情况下,键值比较次数约等于 1.39nlog n
所以它们的效率分别是:
关于快速排序的优化:
- 更好的基准元素选择方法。比较有名的是三平均划分法(median-of-three method),以数组最左边,最右边,以及最中间元素的中位数作为基准元素。上文提过平均情况下快速选择的效率大约是1.39nlog n,根据维基百科,使用三平均划分法能使效率达到1.188nlog n 左右。
- 当数组足够小的时候(5-15),改用插入排序方法。或者在快速排序递归至每个分组都足够小的时候,停止递归,然后对整个近乎有序的数组实行插入排序。
- 先递归比较小的分组,然后对大的另一个分组使用尾递归,减少堆栈。
题外话:关于我对js特色的快速排序实现的改进历程:
第一次看到这个代码,我就觉得其实没必要对数组进行切片,所以我把切片去掉了,变成这样:
然后问题来了,我用var a=[2,5,3,9,8,0,7,1,4]去测试这段代码,浏览器就报错了!
然后我就在每个循环后面加了一个console.log(a),发现第一次循环结果还是正常的,a被切成了 [2,5,3,0,7,1,4] [9,8]。
但是从第二次就开始了[2,5,3,0,7,1,4]的死循环。研究了以下,发现此时 a[Math.floor(a.length/2)]刚好是0,所以切片时right数组还是[2,5,3,0,7,1,4],所以就形成了死循环。
也就是说,当我们选中的基准元素刚好是这个数组中的最大或者最小元素时,就会发生死循环。
想要避免死循环,就要跳过基准元素,为了避免频繁的比较下标,把基准元素设置为数组的第一个元素(但是如果数组本身已经排序好,选择第一个元素作为基准元素会让效率变得很低):
再用var a=[2,5,3,9,8,0,7,1,4]去测试,运行成功。(当然,这次改进只能提高代码的可读性= =)
还有一个同学提出另一种改进思路:出了left和right外,再增加一个equal数组,存放和基准元素相等的元素,这样也不用切片,也不会发生死循环。不过我目前觉得,这个改进方法好像也没有什么实际意义……
然后问题来了,我用var a=[2,5,3,9,8,0,7,1,4]去测试这段代码,浏览器就报错了!
然后我就在每个循环后面加了一个console.log(a),发现第一次循环结果还是正常的,a被切成了 [2,5,3,0,7,1,4] [9,8]。
但是从第二次就开始了[2,5,3,0,7,1,4]的死循环。研究了以下,发现此时 a[Math.floor(a.length/2)]刚好是0,所以切片时right数组还是[2,5,3,0,7,1,4],所以就形成了死循环。
也就是说,当我们选中的基准元素刚好是这个数组中的最大或者最小元素时,就会发生死循环。
想要避免死循环,就要跳过基准元素,为了避免频繁的比较下标,把基准元素设置为数组的第一个元素(但是如果数组本身已经排序好,选择第一个元素作为基准元素会让效率变得很低):
再用var a=[2,5,3,9,8,0,7,1,4]去测试,运行成功。(当然,这次改进只能提高代码的可读性= =)
还有一个同学提出另一种改进思路:出了left和right外,再增加一个equal数组,存放和基准元素相等的元素,这样也不用切片,也不会发生死循环。不过我目前觉得,这个改进方法好像也没有什么实际意义……
评论
发表评论