看到"垃圾收集"的第一眼, 感觉它就是字面的意思 -- 找到并且扔掉垃圾. 事实上它做的正相反. 垃圾收集是追踪所有仍在使用的对象, 并且标记剩下的为垃圾. 要牢记这一点, 我们之后会开始深挖关于在Java虚拟机中, 叫做"垃圾回收"的自动化内存回收进程是如何实现的.
我们不会钻研细节, 而是从头开始, 解释一般的垃圾收集和核心概念及方法.
声明:
该手册关注Oracle Hotspot和OpenJDK的行为. 对于其他运行时和JVM, 如jRockit 或 IBM J9, 表现的会与本手册中介绍的一些概念不同.
1.1 手动内存管理
在我们介绍当代的垃圾收集之前, 我们先就你必须手动并明确地为你的数据分配和释放内存的地方做一个回溯. 如果你曾忘记释放内存, 那么你会无法复用该内存区域. 这块内存将被声明但是无法使用. 这样的情景叫做内存泄漏(memory leak).
以下是用C写的手动内存管理的简单示例:
int send_request() {
size_t n = read_size();
int *elements = malloc(n * sizeof(int));
if(read_elements(n, elements) < n) {
// elements not freed!
return -1;
}
// …
free(elements)
return 0;
}
如我们所见, 相当容易忘记释放内存. 相比现在, 内存泄漏在过去是一种相当常见的问题. 你只能通过修改代码来修复. 因此, 一种更好的方法是自动化回收未使用内存, 消除人员出错的可能性. 这种自动化就叫做垃圾收集(GC).
1.1.1 智能指针(Smart Pointers)
自动化垃圾收集的第一种方法是构建引用计数. 对于每个对象, 你只需要知道它被引用了多少次, 当该计数为0时该对象可以被安全地回收. 一个著名的例子就是C++的共享指针(shared pointers):
int send_request() {
size_t n = read_size();
shared_ptr<vector<int>> elements
= make_shared<vector<int>>();
if(read_elements(n, elements) < n) {
return -1;
}
return 0;
}
我们利用shared_ptr
来追踪它的引用计数. 该数字在你pass it around时增加, 离开作用域时减少. 当这个引用计数为0时, shared_ptr
自动化删除该vector. 应当承认, 该例子在真实世界并不流行, 但是在这里用于演示很适合.
1.2 自动化内存管理
在上边的 C++代码中, 当我们想要进行内存管理时还是要明确地声明. 但是如果我们能够使所有的对象都按照这种方式行事呢?那将会非常方便, 因为开发不必考虑清理内存. 运行时会自动知道一些内存不再使用并释放它. 换句话说, 它会自动化收集垃圾. 第一个垃圾收集器在1959年用Lisp实现, 当时这项技术相当先进.
1.2.1 引用计数
我们展示过的C++的共享指针的想法可以应用到所有对象. 很多语言, 比如Perl, Python或PHP都采用这种方法. 用图片展示如下:
gchandbook_引用计数.png
绿色云彩表示它们指向的对象仍在被程序员使用. 技术上, 这些可能是像在当前执行方法中的本地变量或静态变量或其他东西. 它根据语言的不同而有区别, 我们并不关注这些.
蓝色圆圈是内存中的活的对象, 里边有表示引用计数的数字。最后, 灰色圆圈是没有被任何仍在使用(这些直接被绿色云彩引用)的对象引用的对象. 灰色对象就是垃圾, 可以被垃圾收集器清理.
所有这些看起来相当棒, 不是吗? 也确实如此, 但是该方法有一个巨大的缺点, 由于循环引用,它们的引用计数不为零,因此很容易导致一个分离的对象循环,但它们都不在范围之内. 演示如下:
gchandbook_引用计数缺点.png
看到没? 红色对象实际上是应用没有使用的垃圾. 但是由于引用计数的限制, 会存在内存泄漏.
有方法来克服这个问题, 像是使用特殊的"弱"引用或为收集循环应用单独的策略. 上述语言 - Perl, Python和PHP - 都是用这一种或另一种方法来处理循环, 但是这超出了本书的范围. 取而代之的, 我们会开始研究JVM的更多细节.
1.2.2 标记和清除(Mark and Sweep)
首先, JVM对一个对象的可达性更为精确. 与之前章节看到的含糊不清的绿色云彩定义不同, 我们有一个非常具体和明确的对象集叫做垃圾收集根节点(Garbage Collection Roots):
- 本地变量
- 活动线程
- 静态域(Static fields)
- JNI引用
JVM用于追钟虽有可到达(活的)对象, 并且确保由不可达对象声明的内存可以被重复使用的方法叫做标记和清除策略. 它包括2步:
- 标记(Marking) 是从GC roots遍历所有可抵达对象, 并在本地(native)内存维护一个关于所有这些对相关的账本.
- 清除(Sweeping)是确保由不可达对象占用的内存地址可以在下一次分配中被重复使用.
在JVM中有不同的GC策略, 如Parallel Scavenge(并行清除), * Parallel Mark+Copy(并行标记+复制), 或CMS*, 在实施这2步时略有不同, 但是在概念层面, 这些过程和上述2步类似.
关于这个方法一个关键的东西就是循环不再泄漏:
gchandbook_marksweep.png
一个"并不十分好"的事情是当收集发生时, 应用线程需要停止, 因为如果它们一直在变化, 你时无法真正计算引用的. 这个场景 -- 当应用短暂停止, 以便JVM可以忙于"家务活" -- 被称作Stop The World pause. 可能因为很多原因而发生这个, 但是垃圾收集器是最主要的原因.
在本手册中, 我们会解释JVM的垃圾收集如何工作以及如何充分利用它.
网友评论