今天是JVM的生日,那么我们就从今天开始聊聊JVM相关的内容吧。
JVM虚拟机是JAVA的基础,正是它的存在使得JAVA摆脱了硬件平台的束缚,实现了“一次编译,到处运行”的理想。尽管我们写代码的时候可能不会直接接触JVM虚拟机,但是了解其原理依旧是非常有必要的。那么,今天我们就来聊聊JVM虚拟机中的内存机制。
本文的要点如下:
- 概述
- JVM虚拟机的内存区域划分
- 程序计数器
- Java虚拟机栈
- 本地方法栈
- Java堆
- 方法区
- 运行时常量池
- HotSpot虚拟机对象内存
- 对象的创建
- 对象的内存布局
- 对象的访问定位
概述
“Java和C++之间有一堵由内存动态分配和垃圾收集技术所围成的“高墙”,墙外面的人想进去,墙里面的人却想出来。” ——《深入理解Java虚拟机》
我们知道,Java语言的一个巨大优势就是虚拟机存在着自动内存管理机制,程序员不再需要为每一个new操作去写配对的delete/free代码,也不容易出现内存泄露和内存溢出问题。这就是C、C++程序员天天喊着Java比C++简单的原因。但是其实真的是这样么?正因为Java程序员把内存的控制权交给了Java虚拟机,一旦出现了内存泄露、内存溢出的问题,排查错误是很困难的。因此,我们就需要了解Java虚拟机是怎样使用内存的。
JVM虚拟机的内存区域划分
Java虚拟机管理的内存包括以下几个区域:
jvm1.jpeg
相信上面的图大家应该都见过,那么我们就来看看每一部分具体是做什么的。
1.程序计数器(Program Counter Register)
程序计数器是一块较小的内存空间,可以看作是当前程序所执行的字节码的行号指示器。虚拟机中的字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的指令,循环、分支、跳转、异常处理、线程恢复等基础功能都要依靠这个计数器来实现。
我们知道,Java虚拟机的多线程是通过线程轮流切换并分配处理器时间片进行执行的方式来实现的。那么为了保证线程切换后能恢复到正确的执行位置,每个线程都要有一个独立的程序计数器,程序计数器之间互不干扰,即程序计数器是“线程私有”的。
- 如果线程正在执行的是一个Java方法,那么计数器记录的是正在执行的虚拟机字节码指令的地址;
- 如果线程正在执行的是一个Native方法,那么计数器的值则为空。
在Java虚拟机规范中,是唯一一个没有规定任何OutOfMemoryError情况的区域。
2.Java虚拟机栈(Java Virtual Machine Stacks)
- Java虚拟机栈描述的是Java方法执行的内存模型,每个方法在执行时都会创建一个栈帧用于储存局部变量表、操作数栈、动态链接、方法出口等信息。每一个方法从调用到执行结束的过程,就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。
- 虚拟机栈是线程私有内存,生命周期与线程相同。
- 局部变量表存放了编译期可知的各种基本数据类型、对象引用类型和returnAddress类型,它所需的内存空间在编译期间完成分配。
- 在Java虚拟机规范中,对这个区域规定了两种异常状况:
- 如果线程请求的栈深度大于虚拟机所允许的深度,将抛出StackOverflowError异常;
- 如果虚拟机栈可动态扩展且扩展时无法申请到足够的内存,将抛出OutOfMemoryError异常。
3.本地方法栈(Native Method Stack)
听名字就知道这个栈和Java虚拟机栈类似,也是线程私有,只不过是服务于Native方法。
- 在虚拟机规范中,对这个区域无强制规定,由具体的虚拟机自由实现。
- 同样,本地方法栈也会抛出StackOverflowError异常h和OutOfMemoryError异常。
4.Java堆(Java Heap)
Java堆是虚拟机所管理的内存中的最大的一块,它被创建的唯一目的就是存放对象实例,几乎所有的对象实例都在这里分配内存,Java堆可处于物理上不连续的内存空间中,只要逻辑上是连续的即可。
- Java堆是垃圾收集器管理的主要区域,因此又叫做“GC堆”。
- Java堆是被所有线程共享的,在虚拟机启动时就被创建出来。
- 线程共享的Java堆中,可能划分出多个线程私有的分配缓冲区(Thread Local Allocation Buffer,TLAB),但无论哪个区域,存储的都仍然是对象实例,进一步划分的目的只是为了更好地回收内存,或者更快地分配内存。
- 在Java虚拟机规范中,如果在堆中没有内存完成实例分配,且堆也无法再扩展时,将会抛出OutOfMemoryError异常。
5.方法区 (Method Area)
方法区用于储存已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据,并且除了和Java堆一样不需要连续的内存和可以选择固定大小或可扩展外,还可选择不实现GC。
- 与Java堆一样,是各个线程共享的内存区域。
- 很多人把方法区称作“永久代”,但其实两者不是等价的,只是部分Java虚拟机用永久代来实现方法区而已。发布的JDK1.7的HotSpot中,已经把原本放在永久代的字符串常量池移出。它还有个别名叫做Non-Heap(非堆)。
- 数据并非进入“永久代”之后就可以永久存在了,方法区的GC也是有必要的,主要的目的是针对常量池的回收和类型卸载。
- 在Java虚拟机规范中,当方法区无法满足内存分配需求时,将抛出OutOfMemoryError异常。
6.运行时常量池(Runtime Constant Pool)
Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池(Constant Pool Table),用于存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区的运行时常量池中存放。
- 运行时常量池的一个重要特征是具备动态性,体现在并非只有预置入Class文件中常量池的内容才能进入方法区运行时常量池,运行期间也可能将新的常量放入池中(String的intern()方法)。
- 运行时常量池是方法区的一部分,会受到方法区内存的限制。
- 在Java虚拟机规范中,当常量池无法再申请到内存时会抛出OutOfMemoryError异常。
HotSpot虚拟机对象内存
对象的创建
在Java语言层面,创建对象通常仅仅是一个new关键字而已,那么虚拟机中对象的创建又是一个什么样的过程呢?
1. 类加载检查:
当虚拟机遇到一条new指令的时候,首先会检查这个指令是否能在常量池中定位到一个类的符号引用,并且检查这个符号代表的类是否已经被加载、解析和初始化过了。如果没有会先执行类的加载过程。
2. 分配内存:
类加载检查通过后,虚拟机会为对象分配内存。对象所需的内存的大小在类加载后便可确定。根据内存是否规整可以分为两种内存分配方式:
- 若规整,采用“指针碰撞”分配方式:将用过和空闲的内存放在两边,中间以一个指针作为分界指示器。当分配内存时,就把指针向空闲一边挪动与对象大小相等的距离即可。
- 若非规整,则采用“空闲列表”分配方式:维护一个记录可用内存块的列表。当分配内存时,就从列表中找到一块足够大的空间划分给对象实例并更新记录。
另外,为了保证内存分配是线程安全的,有如下两种方案:
- 对内存分配的动作进行同步处理;
- 每个线程在Java堆中预先分配一块内存(本地线程分配缓冲TLAB),在本线程的TLAB上进行分配,当TLAB用完需要分配新的TLAB时再同步锁定。
3. 设置对象头:
将对象的所属类、找到类的元数据信息的方式、对象的哈希码、对象的GC分代年龄等信息存放在对象的对象头(Object Header)中。
4.执行init方法:
尽管经过1、2、3步骤对象在虚拟机中已经产生了,但此时所有的字段都还为零,还需要执行<init>方法进行初始化,才能成为真正可用的对象。
对象的内存布局
- 对象头(Object Header):
包括Mark Word和类型指针两部分:
- Mark Word:用于存储对象自身的运行时数据,如哈希码、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等。根据虚拟机的位数不同长度为32bit或64bit,会根据对象状态复用空间。
- 类型指针:用于确定这个对象的所属类。
另外,如果对象是数组,还会有一块记录数组长度的数据。- 实例数据(Instance Data):存储真正的有效信息,是程序代码中定义的各种类型的字段内容。存储顺序会受虚拟机分配策略参数和字段在Java源码中定义顺序这两个因素影响。
- 对齐填充(Padding):占位符,帮助补全未对齐的对象实例数据部分(保证是8字节的倍数),非必需。
对象的访问定位
- 通过句柄访问对象:在Java堆中划分出一块内存来作为句柄池,reference存储的是对象的句柄地址,在句柄中包含了对象实例数据与类型数据各自的具体地址信息。优势:reference中存储的是稳定的句柄地址,在对象被移动时只会改变句柄中的实例数据指针,而reference本身不需要修改。
- 通过直接指针访问对象:在Java堆对象的布局中考虑如何放置访问类型数据的相关信息,reference存储的直接就是对象地址。优势:速度更快,节省了一次指针定位的时间开销。
网友评论