美文网首页
GC:垃圾回收器

GC:垃圾回收器

作者: Robin92 | 来源:发表于2020-04-15 22:36 被阅读0次

    Java VS C/C++

    • Java 有 GC 自动处理垃圾,所以开发效率高,但执行效率低
    • C++ 需要手工处理垃圾,但这样造成开发上的不便,忘记回收就会造成内在泄漏,回收多次会造成非法访问,因为开发效率差,但执行效率高

    如何找到垃圾

    一般有两种算法:

    • 引用记数法(Reference Count,RC)
    • 根可达算法(Root Searching,RS)

    引用记数法:一个变量被引用多少次,有一个记数,这就是引用记数法。但它不能解决循环引用的问题。

    Python 用的引用计数

    根可达算法:从根对象开始搜。

    根对象,总得来说,在程序运行的时候马上用到的对象,就是根对象:

    • 线程栈变量。一个 main 函数运行起来就会起一个线程,线程中会有线程栈,线程栈中会有栈针,从栈针开始的对象,就是根对象。
    • 静态变量。Class Load 时马上就初始化静态变量,所以它也是根对象。
    • 常量池。就是一些字面量,程序会有一块内存空间存储这些字面量。
    • JNI 指针(Java Native Interface)。native 是与C++联合开发的时候用的关键字,指明这个方法是原生函数,也就是这个方法是用C/C++语言实现的,并且被编译成了DLL,由java去调用的。它也是概对象。
    根可达算法

    GC 三种方法

    • Mark-Sweep(标记清除)。
    • Copying(拷贝)。Copy 到另一块空间,两块空间互相转换,移动后清理另一块,所以清理很快。
    • Mark-Compact(标记压缩)。一边寻找还要一边压缩,所以效率差些。
    GC 过程及方法

    分代模型

    分代模型 image.png

    G1 及之前都是分代模型(参考下面的常见的垃圾回收器)
    G1 是逻辑分代,物理不分代
    G1 之前都是逻辑分代物理也分代

    专业名词

    • 新生代的 GC 叫:MinorGC 或 YGC(Young GC),是在年轻代空间耗尽时触发
    • 老年代/整个的 GC 叫:MajorGC 或 FullGC,是在老年代空间耗尽时同时触发 FullGC 和 YGC

    变量的分配

    • 栈上分配。比如一些线程私有的小对象、代码块内的对象等。(无需调整
    • 线程本地分配(TLAB,Thread Local Allocation Buffer)。占用 Eden (伊甸区),默认 1%。(无需调整
    • 老年代。大对象。

    TLAB 是这样的,如果无 TLAB 那每一个线程都需要在 Eden 区分配一部分空间,会发生争抢,所以规定每个线程在 Eden 区占有 1% 的自有空间,当占满了后再去占有其他空间。提高了效率。

    何时进入老年代

    • 按年龄:年龄可以设置,Java 中对象头标记 GC 代数的是 4 位,所以最大设置为 15 次就进入老年代。
    • 动态年龄:从 S1 拷贝到 S2 时超过 S2 的 50%,就将年龄最大的放入老年代(此时不管年龄是多大,将最大的移动)。

    总结一下

    • 变量先进栈,栈上处理最快,用完 pop 掉。
    • 大变量直接进入老年区。老年区触发 FullGC 才会清除。
    • 变量不大的话进入伊甸区。伊甸区进行 YGC 可能清除。
    • 伊甸区的多次未清除的话(达到年龄)进入老年区。进行 FullGC 清除。

    还有一种情况是 分配担保,是指在 YGC 期间,survivor 区空间不够用了,一些变量直接进入老年代。

    变量生命周期

    常见的垃圾回收器

    image.png

    术语:

    • STW,Stop-The-World,是指在垃圾回收时,让所有的线程停止运行。
    • Safe Point,是指线程停止的那个安全点。比如在上锁期间,就不是一个安全点,它会等到到安全点时停止线程。

    上图解释

    • 左侧分上下的,上方是 YGC 的几种方式,下方是老年代 GC 的几种方式。
    • Serial 是指单线程去清理垃圾
    • Par... 是指多线程并发去清理垃圾
    • PS + PO 是 JVM 中的默认组合
    • 目前还没有不 STW 的垃圾回收器

    scavenge:清除污物,打扫。

    CMS

    CMS(Concurrent Mark Sweep) 是里程碑式的,因为在这之前清理垃圾时都是需要 STW 的,从这里开始,可以在清理工作时不进行 STW。

    CMS 的流程有四步:

    • 初始标记。花的时间很短,很快。
    • 并发标记。这个阶段是最花时间的(其他 GC 中亦然),CMS 实现了并发标记。
    • 重新标记。花的时间也很短,因为大部分都标记了。
    • 并发清理。这个时间产生的垃圾叫 浮动垃圾,会进入下一轮清理。

    可以套一下上面 根可达算法 的图例,就清楚流程了。

    CMS

    图中一根黄线表示单线程,多根黄线表示多线程并发。

    CMS 几乎未被广泛使用,虽然它是里程碑式的,但它的原因很大。
    优:有并发标记的过程,所以不妨碍主程序的运行。
    劣:

    • 是 Mark-Sweep 模型,所以会有很多 碎片。内存很大时就无法清理了。

    碎片很多会报 “Concurrent Mode Failure” 或 “PromotionFailed” 的错误。

    问,一个网站,服务器 32 位,1.5G 的堆,用户反馈网站缓慢,公司决定升级,新服务器是 64 位,16G 内存,结果用户反馈十分卡顿,反不如初。为何?
    答:因为内存变大了,大成天安门广场,GC 清理不过来了。


    课后话:

    • Serial 支持几十兆的内存
    • PS 在上百兆
    • CMS 在 20G
    • G1 在上百G
    • ZGC 在 4T

    G1、 ZGC 他们的区别主要在 并发标记(Concurrent Mark)阶段的算法不同

    • CMS 用的三色标记 + Incremental Update
    • G1 用的三色标记 + SATB(Snapshot At The Beginning)
    • ZGC 用的颜色指针(Corlored Pointers)

    三色标记:黑、灰、白,白色回收。


    附:参考 mashibing github 库文件

    相关文章

      网友评论

          本文标题:GC:垃圾回收器

          本文链接:https://www.haomeiwen.com/subject/hguhvhtx.html