美文网首页Python
python-垃圾回收机制

python-垃圾回收机制

作者: 除囧 | 来源:发表于2017-07-21 00:55 被阅读39次

    这两天和朋友讨论问题,期间提到了垃圾回收机制,我立马想到了 python 的垃圾回收机制,之前有看过相关的资料,但是还是觉得理解不深刻,所以又去找了相关资料。


    垃圾回收机制

    python 和 java 一样,采用了垃圾回收机制,而像 c/c++ 这种语言是没有采用垃圾回收机制的,因此当一个对象再也不用时,程序员必须自己释放内存。但采用了垃圾回收机制的语言--如 python,程序员只管创建和使用,不管释放和回收。


    python 的垃圾回收机制

    当前的垃圾回收算法多种多样,python 采用的是引用计数为主,标记清除和分代回收为辅的垃圾回收机制。
    这是由多种原因决定的,有兴趣的自行搜索一些资料。


    引用计数

    原理:当创建或赋值对象的引用时,对象的引用计数加1;当销毁对象的引用时,对象的引用计数减1;当对象的引用计数值为0时,则说明对象已经没有被引用了,可以将对象所占用的内存释放。

    导致引用计数 +1 的情况:

    1. 对象被创建;
    2. 对象被引用;
    3. 对象作为参数传入函数中;
    4. 对象作为元素存储在容器中。

    导致引用计数 -1 的情况:

    1. 对象被销毁;
    2. 对象的引用指向了新的对象;
    3. 对象离开了它的作用域;
    4. 对象所在的容器被销毁。

    引用计数的优点:

    1. 无需挂起程序;(相对于标记清除法)
    2. 引用局部性比较好;
    3. 废弃及回收。

    引用计数的缺点:

    1. 更新引用计数值的花销;
    2. 引用计数占据额外的空间;
    3. 无法处理环形引用的情况。

    环形引用的产生

    什么是环形引用?比如, A 对象里引用了 B 对象,B 对象引用了 A 对象,这样就形成了环形引用。

    class A:
        pass
    
    a = A()  # 这里 a 的引用是 1 次
    b = A()  # 这里同上
    
    a.t = b  # 这里 b 的引用 +1 ,因为 b 的引用为 2 次
    b.t = a  # 这里同上
    
    del b  # 这里 b 的引用 -1,因为原来 b 的引用是 2,-1 之后是1,a 的引用仍然为 2
    del a  # 这里同上
    
    # 现在 a,b 已经被删了,但之前它们指向的对象的引用计数值仍为 1,不为 0,
    # 因此引用计数算法仍然认为这两个对象不是垃圾对象,这就是循环引用带来的问题。
    

    python 为了解决循环引用的问题,引入了标记清除和分代回收。


    标记清除

    标记清除也是著名的垃圾回收算法之一,最典型的就是 java 采用了这个算法。
    原理:

    1. 标记阶段:对所有存活对象进行一次全局遍历来进行对象的标记,所有可达对象标记为可达,其它不可达的对象就是可以被回收的垃圾对象。
    2. 清除阶段:清除所有垃圾对象。

    标记清除的优点:

    1. 没有环形引用的问题(相对与引用计数);
    2. 无需操作引用计数值的开销(相对与引用计数)。

    标记清除的缺点:

    1. 垃圾回收进行时,程序必须暂停。
    2. 标记阶段的花销较大
    3. 清除对象后会造成内存碎片的问题(解决方法是采用标记缩进算法,这里不再详述)

    在 python 中,标记清除主要是为了解决循环引用的问题。
    python 会用链表连接可能产生循环引用的对象(如 list,dict,class 等容器类,int,string这类不会产生循环引用),如,a=[],b=[],c={},将会产生:head <----> a <----> b <----> c 双向链表。然后从这些链表里的元素出发,标记每个可到达的对象,然后那些没有被标记的对象将会被清除。

    流程:

    1. 寻找根集合,如上面的链表,里面的元素一般为全局引用或函数栈上的引用
    2. 从根出发,可到达对象会被标记
    3. 清除所有没有被标记的对象

    分代回收

    分代回收在我看来,是为了提高垃圾回收效率和程序性能的的机制。它作用的地方并不是垃圾回收的内容,而是垃圾回收这个动作。

    分代收集的思想就是活的越久的对象,就越不是垃圾,回收的频率就应该越低
    --《Python垃圾回收机制及gc模块详解》

    这个分代回收非常重要的原因是:一部分对象的生存周期比较短,一部分对象的生存周期很长,甚至会持续到程序结束。
    这样的话,采用标记清除时,如果都一视同仁的话,会有效率的问题。

    比如说,在某个对象的集合中,标记清除对象是 1s 进行一次,在进行了 10 次(共10s)的标记清除后,它发现一部分对象存在了 10 次,因此它把这部分对象移入另一个对象的集合中,对这些对象进行 10s 一次的标记清除,这样的话会比之前不区分的时候效率高,占用的资源少。

    python 的分代回收分三个代。(三个代其实是三个链表)
    当各个代中的对象数量达到阈值的时候就会触发 python 的垃圾回收。(具体可用 gc 模块的 get_threshold() 查看)
    python 首先从第三代开始检查,如果三代中的对象大于阈值则同时回收三个代的对象,如果二代的的对象大于阈值, 则回收二代和一代的对象。


    如有错误,麻烦评论告知,无比感激!


    参考

    http://www.jb51.net/article/52229.htm
    http://www.cnblogs.com/Xjng/p/5128269.html
    https://my.oschina.net/hnuweiwei/blog/291367?p=1
    http://blog.csdn.net/yueguanghaidao/article/details/11274737

    相关文章

      网友评论

        本文标题:python-垃圾回收机制

        本文链接:https://www.haomeiwen.com/subject/kzlskxtx.html