为什么需要垃圾收集
在回答这个问题之前,可以先比较目前最流行的两款面向对象的语言 JAVA 和 C++。JAVA 是带垃圾收集功能的,而 C++ 是没有垃圾收集功能的。其本质原因就是在于 JAVA 是一门使用内存动态分配和垃圾收集技术的语言,因此对象的创建和回收都不需要程序员手动操作,只需要交给虚拟机即可,因此由于语言本身的特点所以需要专门的垃圾收集器来回收“已死”的对象。而 C++ 的内存是需要程序员手动分配和释放的,因此不需要进行专门的垃圾收集操作。由于 C++ 需要手动分配和释放内存因此若是释放不及时很容易出现内存泄露的问题,JAVA 是交给专门的收集器因此极少出现内存泄露问题。由于有了垃圾收集器的参与 JAVA 在效率上就会比 C++ 差,但是就避免了区分配和释放内存的麻烦,有得就必有失。
垃圾收集需要关注的三个问题
哪些内存需要回收
笼统的来讲 JAVA 里面的内存分为堆内存和栈内存,由于栈是伴随着线程而存在的,线程执行结束栈内存就应该被回收,因此相对简单不需要太关心。堆内存才是需要考虑的重点,主要是堆内存非线程私有,它是被共用的,因此它的回收会比较复杂,才是垃圾收集器需要关注的重点区域,这就回答了哪些内存需要回收的问题了。
什么时候回收
现在知道了需要关注的回收区域是堆内存的回收,而且也知道堆内存上分配的都是引用类型的数据,即对象和数组。也就是需要关心什么时候回收堆中的对象,于是问题就转化成了确定堆中哪些对象是无用的“已死”对象。于是引出了两种确定“已死”对象的方法。
引用计数法
引用计数法说白了就是把堆中对象被其他对象引用总次数记录下来,每次被别的对象引用时计数器的数量就加 1 引用失效后数量就减 1,当对象的引用计数为 0 时就回收该对象。从算法上来看是一个非常简单的算法,但是其有一个问题就是循环引用,当两个已失效的对象互相引用彼此时,通过这个方法是无法把计数减到 0 的。JAVA 虚拟机也不是采用这种方式确定对象“已死”的。
可达性分析法
这种方法有一个叫 GCRoots 的概念,从名字可知就是垃圾收集的根节点集合。以这一系列的根节点为开始去遍历其引用链,在引用链中可达的对象就当作“存活”的对象,不可达的则为“已死”对象。从而可达性分析法就避免了计数法的问题,能正确找到“存活”的对象。这里需要关注的是哪些对象可以作为 GCRoots:
1.虚拟机栈(栈帧中的本地变量表)中引用的对象;
2.方法区中的类静态属性引用的对象;
3.方法区中常量引用的对象;
4.本地方法栈中JNI(即一般说的Native方法)中引用的对象;
5.JAVA 虚拟机内部的引用;
6.所有被同步锁持有的对象;
7.反映 Java 虚拟机内部情况的 JMZBean、JVMTI 中注册的回调、本地代码缓存等;
8.除了这些外还有跨代引用的记忆集等;
如何回收
对于“已死”对象的回收问题,这就涉及到具体的垃圾收集算法了。在讨论垃圾收集算法前,有一个重要的特征需要说明。根据对象“朝生夕死”的特点,在 G1 前的垃圾收集器都有分代的思想,也就是会把整个堆内存分为新生代和老年代,而不同的分代会应用不同的的垃圾收集算法进而有不同的垃圾收集器。本次系列文章只讨论 CMS、G1、shenandoah、ZGC,这几种关注低延迟的垃圾收集器。由于分代的引入,于是出现了跨代引用问题,不同收集器处理跨代引用方法略有不同,都会使用记忆集这种数据结构去解决跨代引用问题。同时也出现了几种专有名词:
MinorGC、YoungGC:指的是新生代的垃圾回收;
MajorGC、OldGC:指的是老年代的 GC,目前只有 CMS 有老年代 GC 的说法。
MixedGC:会收集整个新生代以及部分老年代,目前只有 G1 会有这种 GC。
FullGC:会收集整个 Java 堆和方法区;
有时候也会把 FullGC 和 MajorGC 混用,某些场景需要注意区分。
标记-清除算法
它是最基础的垃圾收集算法,其他的收集算法都是在它的基础上改进而来的。
根据名字可知该算法有两个过程,即标记和清除。根据上文的可达性分析法即可标记出存活的对象,然后清除调未被标识的对象即可。该算法的缺点:
1、执行效率不稳定当对象太多时,标记和清除两个过程效率会降低;
2、会导致很多内存碎片,从而会影响大对象的分配;
标记-复制算法
如算法名所示它也包含两个过程,即标记和复制。该算法在分配对象内存时,会留出一块区域,此区域不分配新对象,也就是会有一块空闲的内存区域,用以复制对象。其标记过程和标记-整理算法一样,而清除时,它是将标记后存活的对象复制到空闲的的那块内存区域中,然后将另一块作为垃圾整个回收掉。由于新生代对象“朝生夕死”的特点,Java 虚拟机在新生代使用的就是复制算法,将新生代内存分成三块,Eden、From Survivor 、To Survivor,其默认比例为 8:1:1。新创建的对象在 Eden 区分配,Survivor 区用来保存从 Eden 区存活下来的对象,当对象的可达性分析标记完成后,将 Eden 区中存活的对象复制到 To Suirvivor 区,From Survivor 区的对象根据对象的分代年龄,大于设置的分代年龄的对象复制到老年代,小于的也复制到 To Survivor 区,然后清空 Eden 和 From Survivor 区,此时的 To Survivor 区变成 From Survivor 区,被清空的 From Survivor 区变成 To Survivor 区。如此便完成了标记-复制算法在新生代的流程。由于新生代对象“朝生夕死”的特点,所以每次存活下来的对象比较少,因此复制的开销也比较小,并且也完全避免了空间碎片的产生,也有利于垃圾的整块回收;但是也有两个缺点:
1、由于需要专门留一块做为空闲的区域,故浪费内存空间,但是由于对象朝生夕死的特点,浪费的空间有限;
2、由于预留的的空间比较小,就有可能存在存活的对象内存超过预留的内存的可能性,故需要做空间的担保,当预留空间不够用时就直接在老年代分配新对象。
标记-整理算法
这个算法的标记过程和标记-清除算法一样,区别就是标记完成后不是直接清除“已死”对象,而是将存活的对象进行整理,即移动到一起保证中间不存在碎片。这个算法适用于老年代,但是老年代的存活的对象比较多,每次移动对象效率不高,更关键的是需要暂停用户线程 stop the world 因此老年代也不会直接使用该算法,一般都是先进行几轮标记-清除算法收集后,再进行一次压缩的工作,从而减少空间碎片的产生。他的缺点就是:
1、老年代存活对象多,整理需要移动对象,需要开销会很大;
2、由于需要移动对象就需要 stop the world 因此会影响用户线程的执行;
网友评论