一、运行时数据区域
0. 概述
- JVM在执行Java程序的过程中会把它所管理的内存划分为若干个用途不同的数据区域。
- JVM运行时数据区域可分为:
- 程序计数器(Program Counter Register)
- 虚拟机栈(VM Stack)
- 本地方法栈(Native Method Stack)
- 堆(Heap)
- 方法区(Method Area)
- 每个区域创建销毁的时间可能不同。
- 可能随着虚拟机进程的启动而存在。
- 可能依赖用户线程的启动和结束而建立和销毁。
- 线程私有区域的生命周期与线程的生命周期相同。
- 根据是否线程私有可分为:
- 所有线程共享区域:方法区、堆。
- 线程隔离私有区域:程序计数器、虚拟机栈、本地方法栈。
1. 程序计数器
- 线程私有,生命周期与线程相同。
- 如果当前线程正在执行一个Java方法,计数器值为正在执行的字节码指令的地址。
- 如果当前线程正在执行一个Native方法,计数器值为空。
- 字节码解释器工作时就是通过改变计数器的值来选取下一条需要执行的字节码指令的。
- 分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖于计数器来完成。
- 为了线程切换后能恢复到正确的执行位置,每个线程都需要一个独立的程序计数器,线程之间互不影响。
2. 虚拟机栈
- 线程私有,生命周期与线程相同。
- 描述Java方法执行的内存模型。
- 一个方法从调用直到执行完成的过程就对应一个栈帧在虚拟机栈中从入栈到出栈的过程。
- 每个方法在执行的同时都会创建一个栈帧。
- 栈帧是方法运行时的基本数据结构。
- 用于存储局部变量表、操作数栈、动态链接、方法出口等信息。
- 粗糙划分内存为堆和栈时,栈其实指的就是虚拟机栈中变量表部分。
- 局部变量表存放编译期可知的各种基本数据类型、对象引用和returnAddress类型(指向一条字节码指令的地址)。
- 局部变量表所需内存空间在编译期间就已经确定并完成分配,方法运行时不会改变局部变量表的大小。
- 对虚拟机栈规定了两种异常状况:
- StackOverflowError异常,线程请求的栈深度大于虚拟机所允许的深度。
- OutOfMemoryError异常,当虚拟机栈可以动态扩展时(大部分都可),如果无法申请到足够的内存来扩展,就会抛此异常。
3. 本地方法栈
- 和虚拟机栈大部分类似,只不过本地方法栈服务于虚拟机使用到的Native方法。
- 同样的规定了StackOverflowError异常和OutOfMemoryError异常。
- 本地方法栈中方法使用的语言、方式与数据结构没有强制规定。
- 具体的虚拟机可以自由实现它。
- 甚至HotSpot虚拟机直接将本地方法栈和虚拟机栈合二为一。
4. Java堆
- 被所有线程共享,在虚拟机启动时创建。
- 就大多数应用而言,是JVM管理的内存中最大的一块。
- 唯一目的就是存放对象。
- 对象并不绝对分配在堆上。
- JVM规范描述所有对象实例以及数组都要在堆上分类。
- 但是JIT编译器和逃逸分析技术使栈上分配、标量替换优化技术出现。
- 内存回收角度Java堆可细分为新生代和老生代。
- Java堆是垃圾回收的主要区域。
- GC基本采用分代收集算法。
- 内存分配角度Java堆可细分出多个线程私有的分配缓冲区(TLAB)。
- 进一步划分堆是为了更好地回收内存,或更快地分配内存。
- Java堆物理可不连续,逻辑连续即可。
- 可实现成固定大小,也可实现成可扩展。
- 主流虚拟机都是按照可扩展来实现的(-Xmx和-Xms控制)。
- 规定OutOfMemoryError异常,当堆中没有足够剩余内存完成实例分配,并且堆无法再扩展时抛出此异常。
直接内存
- 并不是JVM运行时数据区的一部分,也不是JVM规范定义的内存区域,但是被频繁使用。
- NIO可使用Native函数库直接分配堆外内存,通过Java堆中的DirectByteBuffer对象作为这块内存的引用进行操作。
- 避免了在Java堆和Native堆间复制数据,在一些场景下会显著提高性能。
- 受本机总内存大小和处理器寻址空间的限制,各个内存区域总和大于物理内存限制时会导致动态扩展时出现OutOfMemoryError异常。
5. 方法区
- 所有线程共享。
- 存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。
- 使用HotSpot虚拟机的人可能会将方法区称为永久代。
- HotSpot虚拟机设计团队将GC分代收集扩展至方法区,使用永生代来实现方法区。
- GC器可以像管理堆一样管理方法区,省去专门为方法区编写内存管理的代码。
- 但是永久代实现方法区并不是一个好主意。
- 更容易造成内存溢出。
- JDK1.7版本的HotSpot将原本存放在永久代中的字符串常量池移出。
- 对于其它虚拟机则不存在永久的概念。
- 方法区物理内存同样可不连续,可选择固定大小也可选择可扩展大小。甚至可以选择是否实现垃圾回收。
- 方法区的垃圾回收效率不高。
- 主要针对常量池的回收和类型的卸载。
- 回收条件非常严格。
- 但是回收仍然是有必要的,可能会导致内存泄露。
- 规定OutOfMemoryError异常,当方法区无法满足内存分配需求时,抛出此异常。
运行时常量池
- 运行时常量池是方法区的一部分。
- 存放编译期生成的各种字面量和符号引用(一般还会有直接引用)。
- 这部分内容在类加载后进入方法区的运行时常量池存放。
- 运行时常量池具有动态性。
- Java没有要求常量必须编译期产生。
- 运行期间也可将新的常量放入池中(String的intern())。
- 规定OutOfMemoryError异常,当常量池无法再申请到内存时,抛出此异常。
二、HotSpot虚拟机对象的创建、布局和访问
- HotSpot虚拟机是JDK默认虚拟机。
- 以常用HotSpot和内存区域Java堆为例,探讨HotSpot虚拟机在Java堆中对象分配、布局和访问的全过程。
1. 对象的创建
- a. 检查指令参数是否能在常量池中定位到一个类的符号引用。
- b. 检查这个符号引用代表的类是否已被加载、解析和初始化过,如果没有,就执行类加载。
- c. 为新生对象分配内存。
- 对象所需内存大小在类加载完成时确定。
- 两种分配方式:
- 指针碰撞:
- 当Java堆中内存是绝对规整的,使用内存在一边,空闲内存在另一边时使用此分配方式。
- 两种内存中间放置一个指针作为分界点的指示器。
- 分配内存就是将指针向空闲内存那边移动对象大小的距离。
- 空闲列表:
- 当Java堆中内存是不规整的,使用内存和空闲内存相互交错,就使用此分配方式。
- 会维护一个列表记录哪些内存块是可用的。
- 分配空间时从列表中找出一块足够大的空间划分给对象实例,并更新列表上的记录。
- 指针碰撞:
- 选择哪种分配方式由Java堆是否规整决定,Java堆是否规整由所采用的GC是否带有压缩整理功能决定。
- 分配空间的并发问题处理。
- 在并发情况下,有可能正在给A对象分配内存,指针还没来得及修改,对象B又同时使用了原来的指针来分配内存。
- 第一种:对分配内存空间的动作进行同步处理。
- 虚拟机采用CAS配上失败重试的方式保证更新操作的原子性。
- 第二种:把内存分配的动作按照线程划分在不同的空间中。
- 每个线程在Java堆上预先分配一块小内存,称为本地线程分配缓冲(TLAB)。
- 哪个线程需要分配内存就在哪个线程的TLAB上分配。
- 当TLAB用完需要新分配时才需要同步锁定。
- 虚拟机可通过-XX:+/-UseTLAB参数设置。
- d. 虚拟机将分配的内存都初始化为零值(不包括对象头)。
- 如果使用TLAB,这一步骤可以在TLAB分配时进行。
- 这一步操作保证了对象的实例字段在Java代码中可以不赋初始值就可以直接使用,访问的是对应的零值。
- e. 虚拟机对对象进行必要的设置。
- 将这个对象是哪个类的实例、如何找到类的元数据信息、对象的hash、对象的GC分代年龄等信息存放在对象的对象头中。
- 根据虚拟机当前运行状态的不同(如是否启用偏向锁),对象会有不同的设置方式。
经过上面的步骤,虚拟机的角度看,一个对象已经产生,Java程序角度看,一个对象的创建才刚刚开始,init方法还没有执行。
2. 对象的布局
- a. 对象头
- i. 运行时数据
- 存储对象自身的运行时数据。
- 锁状态标志
- HashCode
- GC分代年龄
- 线程持有的锁
- 偏向线程ID
- 偏向时间戳
- 数据长度在32位和64位虚拟机(没开压缩指针)中分别为32bit和64bit,称为Mark Word。
- 如果全部固定数据结构的存储上述信息,空间是根本不够的,所以Mark Word设计为非固定数据结构以便在小空间存储更多的数据。
- 会根据对象的状态来定义不同的存储形式。
- 存储对象自身的运行时数据。
- ii. 类型指针
- 对象指向它的类元数据的指针。
- 虚拟机通过这个指针确定该对象是哪个类的实例。
- 不是所有虚拟机都要实现保存类型指针,也就是说查找对象的元数据信息并不一定要经过对象本身。
- iii. 数组大小记录
- 如果对象是一个Java数组,那还需要一块记录数组长度的数据。
- 普通Java对象可以通过元数据信息确定对象大小,但是从数组元数据中无法确定数组大小。
- i. 运行时数据
- b. 实例数据
- 真正存储对象有效信息的,各类型的字段内容。
- 存储顺序受到虚拟机分配策略参数和字段在代码中的定义顺序影响。
- HotSpot中相同宽度的字段总是分配到一起。
- longs/doubles ints shorts/chars bytes/booleans oops。
- 父类中定义的变量会出现在子类定义的之前。
- 如果CompactFields参数为true(默认为true),子类较窄变量可能插入到父类变量的空隙之中。
- HotSpot中相同宽度的字段总是分配到一起。
- c. 对齐填充
- 不是必然存在,也没有特别含义。
- 仅仅是占位符的作用,实现内存对齐。
- HotSpot自动内存管理系统要求对象起始地址必须是8字节的整数倍。
- 对象大小也就要求是8字节整数倍,对象头正好是8字节整数倍,实例数据如果不够8字节整数倍,就需要这部分来补全。
3. 对象的访问定位
- Java程序需要通过栈上的reference来操作具体对象。
规范中没有规定引用如何以何种方式定位访问堆中对象的具体位置,所以对象访问方式取决于具体虚拟机。 - 主流访问有两种方式:
- 使用句柄
- Java堆中划分出一块内存作为句柄池,每个对象的句柄存储着对象的引用,reference存储对象句柄的地址。
- 句柄存储包括在Java堆中的实例数据的引用和在方法区的类型数据的引用。
- 优点在于renference中存储的是稳定的句柄地址。对象移动时只改变句柄中的值,renference本身不需要改变。
- 直接指针
- reference直接指向Java堆中的对象实例数据,而类型数据的引用存储在实例数据中。
- 对象布局就需要考虑如何放置类型数据信息了,也就是前面说到的对象头中的类型指针。
- 优点在于省去一次指针定位的时间开销,速度更快。
- HotSpot使用的是直接指针的方式进行对象访问,但其实在整个软件开发范围来看两种方式都很常见。
- 使用句柄
网友评论