对象
在GC的世界中,对象表示的是“通过应用程序利用的数据的集合”。对象配置在内存空间里。GC根据情况将配置好的对象进行移动或销毁操作。因此,对象是GC的基本单位。
一般来说,对象由头( header)和域( field)构成。在 对象 内部,头之后存在1个及1个以上的域。
![](https://img.haomeiwen.com/i10795103/6e097137c756e313.png)
- 头:对象中保存对象本身信息的部分称为“头”。头主要含有以下信息:对象的大小和对象的种类。此外,头中事先存有运行 GC所需的信息,根据GC算法的不同,信息也不同;
- 域:对象使用者在对象中可访问的部分称为“域”。对象使用者会引用或替换对象的域值,而基本上无法直接更改头的信息。域中的数据类型大致分为指针和非指针两种;
堆
mutator(应用程序)实际进行的操作包括生成对象和更新指针两种。mutator在进行这些操作时,会同时为应用程序的用户进行一些处理。随着这些处理的逐步推进,对象间的引用关系也会“ 改变”。伴随这些变化会产生垃圾,而负责回收这些垃圾的机制就是GC。
在开始执行mutator前,GC要分配用于堆的内存空间。一旦开始执行 mutator,程序就会按照mutator的要求在堆中存放对象。等到堆被对象占满 后,GC就会启动,从而分配可用空间。如果不能分配足够的可用空间,一般情况下就要扩大堆。
将分配到内存空间中的对象中那些能通过mutator引用的对象称为“活动对象”。反过来,把分配到堆中那些不能通过程序引用的对象称为“ 非活动对象”。非活动对象就称为“垃圾”。
分块( chunk)指的是为利用对象而事先准备出来的空间。初始状态下,堆被 一个大的分块所占据。然后,程序会根据mutator的要求把这个分块分割成合适的大小,作为活动对象使用。活动对象不久后会转化为垃圾被回收。此时,这部分被回收的内存空间再次成为分块,为下次被利用做准备。也就是说,内存里的各个区块都重复着分块→活动对象→垃圾(非活动对象)→分块→ …… 这样的过程。
根
根是指向对象的指针的“ 起点” 部分。
1 $ obj = Object.new
2 $ obj.field1 = Object.new
其中$obj是全局变量,执行完,全局变量空间及堆如下图:
![](https://img.haomeiwen.com/i10795103/68dfa7ea533532f0.png)
GC把上述这样可以直接或间接从全局变量空间中引用的对象视为活动对象。
与全局变量空间相同,我们也可以通过mutator直接引用调用栈(call stack)和寄存器。也就是说,调用栈、寄存器以及全局变量空间都是根。
评价标准
评价GC算法的性能时,采用以下4个标准:
-
吞吐量
吞吐量( throughput)指的是“在单位时间内的处理能力”。如下图,整个执行过程中,GC启动了三次,总花费时间为(A+B+C),堆大小为HEAP_SIZE,即在大小为HEAP_SIZE的堆上进行内存管理,需要花费的时长为(A+B+C)。所以,GC的吞吐量HEAP_SIZE/(A+B+C)。
吞吐量
-
最大暂停时间
最大暂停时间指的是“因执行GC而暂停执行mutator的最长时间”。即上图中的B。不管尝试哪种GC算法,都会发现较大的吞吐量和较短的最大暂停时间不可兼得。 -
堆使用效率
左右堆使用效率的因素有两个:
头的大小:毋庸置疑,头越小越好。因此为了执行GC,需要把在头中堆放的信息控制在最小限度。
堆的用法:根据堆的用法,堆使用效率也会出现巨大的差异。堆使用效率和吞吐量,以及最大暂停时间不可兼得。可用的堆越大,GC运行越快;相反,越想有效地利用有限的堆,GC花费的时间就越长。
-
访问的局部性
PC上有4种存储器,分别是寄存器、缓存、内存、辅助存储器。
存储器
一般把所有的数据都放在内存 里,当CPU访问数据 时,仅把要使用的数据从内存读取到缓存。与此同时,还将它附近的所有数据都读取到缓存中,从而压缩读取数据所需要的时间。
具有引用关系的对象之间通常很可能存在连续访问的情况。这在多数程序中都很常见,称为“访问的局部性”。把具有引用关系的对象安排在堆中较近的位置,就能提高在缓存中读取到想利用的数据的概率,令mutator高速运行。
网友评论