G1垃圾收集器之RSet

作者: 美团Java | 来源:发表于2017-10-08 21:50 被阅读996次

JVM源码分析系列
G1垃圾收集器之RSet
G1收集器详解
G1垃圾收集器
Java G1垃圾回收
G1垃圾收集器，永久带和元数据区
垃圾回收文章
深入学习JVM(三) -- JVM垃圾收集-G1
G1垃圾回收器
23-一文带你搞懂G1收集器

简书占小狼
转载请注明原创出处，谢谢！

前言

其实一直想系统的学习下G1的垃圾回收算法，无奈水平有限，拖拖拉拉断断续续很久，在JVM领域，R大是权威人物，有人说过R大说的都是对的，网上其它写JVM的文章都不可信...确实虚拟机涉及的东西太多，难免会遗漏或者混淆一些概念，还有细节不够清晰明白，所以本文也只是供大家参考，有不太正确的地方欢迎指正。

很多人在问openjdk的源码哪里下载，这里给个传送门

堆内存

在G1的垃圾回收算法中，堆内存采用了另外一种完全不同的方式进行组织，被划分为多个（默认2000多个）大小相同的内存块（Region），每个Region是逻辑连续的一段内存，在被使用时都充当一种角色，如下图：

G1堆内存的相关实现位于g1CollectedHeap.cpp类中.

Region

每个Region被标记了E、S、O和H，其中H是以往算法中没有的，它代表Humongous，表示这些Region存储的是巨型对象（humongous object，H-obj），当新建对象大小超过Region大小一半时，直接在新的一个或多个连续Region中分配，并标记为H。

Region的相关实现位于heapRegion.cpp类中，当堆内存初始化时，G1CollectorPolicy调用HeapRegion::setup_heap_region_size方法根据最小堆设置每个Region大小。

// ------- g1CollectorPolicy.cpp
// Set up the region size and associated fields. Given that the
// policy is created before the heap, we have to set this up here,
// so it's done as soon as possible.
HeapRegion::setup_heap_region_size(Arguments::min_heap_size());

Region的大小可以通过-XX:G1HeapRegionSize参数指定，如果没有显示设置，则根据如下逻辑计算出一个合理的大小。

Region的大小只能是1M、2M、4M、8M、16M或32M，比如-Xmx16g -Xms16g，G1就会采用16G / 2048 = 8M 的Region.

RSet

每个Region初始化时，会初始化一个remembered set（已记忆集合），这个翻译有点拗口，以下简称RSet，该集合用来记录并跟踪其它Region指向该Region中对象的引用，每个Region默认按照512Kb划分成多个Card，所以RSet需要记录的东西应该是 xx Region的 xx Card。

Region1和Region3中有对象引用了Region2的对象，则在Region2的Rset中记录了这些引用。

RSet实现过程

为了维护这些RSet，如果每次给引用类型的字段赋值都要更新RSet，这带来的额外开销实在太大，G1中采用post-write barrier和concurrent refinement threads实现了RSet的更新。

//假设对象young和old分别在不同的Region中
Object young = new Object();
old.p = young;

java层面给old对象的p字段赋值young对象之后，jvm底层会执行oop_store方法，实现位于oop.inline.hpp类中。

在赋值动作的前后，JVM插入一个pre-write barrier和post-write barrier，其中post-write barrier的最终动作如下：

找到该字段所在的位置(Card)，并设置为dirty_card
如果当前是应用线程，每个Java线程有一个dirty card queue，把该card插入队列
除了每个线程自带的dirty card queue，还有一个全局共享的queue

赋值动作到此结束，接下来的RSet更新操作交由多个ConcurrentG1RefineThread并发完成，每当全局队列集合超过一定阈值后，ConcurrentG1RefineThread会取出若干个队列，遍历每个队列中记录的card，并进行处理，位于G1RemSet::refine_card方法，大概实现逻辑如下：
1、根据card的地址，计算出card所在的Region
2、如果Region不存在，或者Region是Young区，或者该Region在回收集合中，则不进行处理
3、最终使用闭合函数G1UpdateRSOrPushRefOopClosure::do_oop_nv()的处理该card中的对象

其中_from是持有引用的对象所在的Region，to是引用对象所在的Region，通过add_reference方法加入到RSet中，更细节的实现在OtherRegionsTable::add_reference方法中，有兴趣的同学可以继续研究，比如RSet的存储结构。

RSet有什么好处？

进行垃圾回收时，如果Region1有根对象A引用了Region2的对象B，显然对象B是活的，如果没有Rset，就需要扫描整个Region1或者其它Region，才能确定对象B是活跃的，有了Rset可以避免对整个堆进行扫描。

RSet有什么风险？

通过对RSet实现过程的研究，我们得知应用线程只负责把更新字段所在的Card插入到dirty card queue中，然后由后台线程refinement threads负责RSet的更新操作，如果应用线程插入速度过快，refinement threads来不及处理，那么应用线程将接管RSet更新的任务，这是必须要避免的。

refinement threads线程数量可以通过-XX:G1ConcRefinementThreads或-XX:ParallelGCThreads参数设置

网友评论

fdd3b0857d3e:有一个问题想请教一下，就是Rset什么时候作为GC roots
young gc时候作为gc roots，mixed gc 时候也作为gc roots吗？
九州智库:关于bitmap标记的代码在哪里，好像一直没找到

本文标题：G1垃圾收集器之RSet

本文链接：https://www.haomeiwen.com/subject/kfkkyxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！