JVM 类加载过程

作者: markeNick | 来源:发表于2020-05-27 00:05 被阅读0次

简介

类加载过程分为五个阶段：加载、验证、准备、解析、初始化，其中验证、准备、解析阶段合称为链接

加载

在加载阶段，Java虚拟机需要完成以下三件事情：

通过一个类的全限定名来获取定义此类的二进制字节流
将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构
在内存中生成一个代表这个类的java.lang.Class对象，作为方法区这个类的各种数据的访问入口

加载阶段是唯一可以由用户自定义类加载器参与的阶段。

加载阶段既可以使用Java虚拟机里内置的引导类加载器来完成，也可以由用户自定义的类加载器去完成，开发人员通过定义自己的类加载器去控制字节流的获取方式（重写一个类加载器的findClass()或loadClass()方法），实现根据自己的想法来赋予应用程序获取运行代码的动态性。

加载阶段结束后，Java虚拟机外部的二进制字节流就按照虚拟机所设定的格式存储在方法区之中了，方法区中的数据存储格式完全由虚拟机实现自行定义，《Java虚拟机规范》未规定此区域的具体数据结构。

类型数据妥善安置在方法区之后，会在Java堆内存中实例化一个java.lang.Class类的对象，这个对象将作为程序访问方法区中的类型数据的外部接口。

加载阶段与连接阶段的部分动作（如一部分字节码文件格式验证动作）是交叉进行的，加载阶段尚未完成，连接阶段可能已经开始，但这些夹在加载阶段之中进行的动作，仍然属于连接阶段的一部分，这两个阶段的开始时间仍然保持着固定的先后顺序。

验证

验证的目的是确保Class文件的字节流中包含的信息符合《Java虚拟机规范》的全部约束要求，保证这些信息被当作代码运行后不会危害虚拟机自身的安全。

但从整体上看，验证阶段大致上会完成下面四个阶段的检验动作：文件格式验证、元数据验证、字节码验证和符号引用验证。

文件格式验证

第一阶段要验证字节流是否符合Class文件格式的规范，并且能被当前版本的虚拟机处理。

这阶段验证的主要内容如下：

是否以魔数0xCAFEBABE开头。
主、次版本号是否在当前Java虚拟机接受范围之内。
常量池的常量中是否有不被支持的常量类型（检查常量tag标志）。
....... （远不止这些）

该验证阶段的主要目的是保证输入的字节流能正确地解析并存储于方法区之内，格式上符合描述一个Java类型信息的要求。

这阶段的验证是基于二进制字节流进行的，只有通过了这个阶段的验证之后，这段字节流才被允许进入Java虚拟机内存的方法区中进行存储，所以后面的三个验证阶段全部是基于方法区的存储结构上进行的，不会再直接读取、操作字节流了。

元数据验证

第二阶段是对字节码描述的信息进行语义分析，以保证其描述的信息符合《Java语言规范》的要求。

这阶段验证点主要内容如下：

这个类是否有父类（除了java.lang.Object之外，所有的类都应当有父类）
这个类的父类是否继承了被final修饰的类
如果这个类不是抽象类，是否实现了其父类或接口之中要求实现的所有方法
类中的字段、方法是否与父类产生矛盾（例如覆盖了父类的final字段，或者出现不符合规则的方法重载）
........

第二阶段的主要目的是对类的元数据信息进行语义校验，保证不存在与《Java语言规范》定义相悖的元数据信息。

字节码验证

第三阶段是整个验证过程中最复杂的一个阶段。

主要目的是通过数据流分析和控制流分析，确定程序语义是合法的、符合逻辑的。

这阶段会对类的方法体（Class文件中的Code属性）进行校验分析，保证被校验类的方法在运行时不会做出危害虚拟机安全的行为

如果一个方法体通过了字节码验证，也仍然不能保证它一定就是安全的。

符号引用验证

最后一个阶段的校验行为发生在虚拟机将符号引用转化为直接引用的时候，这个转化动作将在连接的第三阶段——解析阶段中发生。

这阶段验证的主要内容如下：

符号引用中的全限定名是否能找到对应的类
符号引用中的类、字段、方法的可访问性（private、protected、public、<package>）是否可被当前类访问

符号引用验证的主要目的是确保解析行为能正常执行，如果无法通过符号引用验证，Java虚拟机将会抛出一个java.lang.IncompatibleClassChangeError的子类异常，典型的如：java.lang.IllegalAccessError、java.lang.NoSuchFieldError、java.lang.NoSuchMethodError等。

在生产环境的实施阶段就可以考虑使用-Xverify：none参数来关闭大部分的类验证措施，以缩短虚拟机类加载的时间。

准备

准备阶段是正式为类中定义的变量（即静态变量，被static修饰的变量）分配内存并设置类变量初始值的阶段，

从概念上讲，这些变量所使用的内存都应当在方法区中进行分配，但必须注意到方法区本身是一个逻辑上的区域，在JDK 7及之前，HotSpot使用永久代来实现方法区时，实现是完全符合这种逻辑概念的；而在JDK 8及之后，类变量则会随着Class对象一起存放在Java堆中，这时候“类变量在方法区”就完全是一种对逻辑概念的表述了

准备阶段进行内存分配的仅包括类变量，而不包括实例变量，实例变量将会在对象实例化时随着对象一起分配在Java堆中。

这里所说的初始值“通常情况”下是数据类型的零值。

例如：public static int value = 123 在准备阶段过后的初始值为 0 ，这是因为 value = 123这个赋值的指令 putstatic 被编译后是存放在类构造器<clinit>()方法之中，所以 value = 123要到初始化阶段才会执行。

注意：

如果类字段的字段属性表中存在ConstantValue属性，那在准备阶段变量值就会被初始化为ConstantValue属性所指定的初始值

例如： public static final int value = 123 在准备阶段就会被进行 value = 123 赋值，因为编译时Javac将会为value生成ConstantValue属性，在准备阶段虚拟机就会根据ConstantValue的设置将value赋值为123

解析

解析阶段是Java虚拟机将常量池内的符号引用替换为直接引用的过程。

符号引用

符号引用以一组符号来描述所引用的目标，符号可以是任何形式的字面量，只要使用时能无歧义地定位到目标即可
符号引用与虚拟机实现的内存布局无关，引用的目标并不一定是已经加载到虚拟机内存当中的内容。
各种虚拟机实现的内存布局可以各不相同，但是它们能接受的符号引用必须都是一致的，因为符号引用的字面量形式明确定义在《Java虚拟机规范》的Class文件格式中。

直接引用

直接引用是可以直接指向目标的指针、相对偏移量或者是一个能间接定位到目标的句柄。
直接引用是和虚拟机实现的内存布局直接相关的，同一个符号引用在不同虚拟机实例上翻译出来的直接引用一般不会相同。
如果有了直接引用，那引用的目标必定已经在虚拟机的内存中存在。

缓存解析结果

对同一个符号引用进行多次解析请求是很常见的事情，虚拟机实现可以对第一次解析的结果进行缓存，譬如在运行时直接引用常量池中的记录，并把常量标识为已解析状态，从而避免解析动作重复进行。

注意：

对于invokedynamic指令并不会缓存解析结果。当碰到某个前面已经由invokedynamic指令触发过解析的符号引用时，并不意味着这个解析结果对于其他invokedynamic指令也同样生效。因为invokedynamic指令的目的本来就是用于动态语言支持

invokedynamic指令对应的引用称为“动态调用点限定符”，这里“动态”的含义是指必须等到程序实际运行到这条指令时，解析动作才能进行。

初始化

在初始化阶段，Java虚拟机才真正开始执行类中编写的Java程序代码（字节码）。

在准备阶段会对类变量设置初始零值，而在初始化阶段会根据代码情况进行赋值。

可以理解为初始化阶段就是执行类构造器<clinit>()方法的过程。<clinit>()是Javac编译器的自动生成物。

类构造器 clinit ()

<clinit>()是由编译器自动收集类中的所有类变量的赋值动作和静态语句块（static{}块）中的语句合并产生的

编译器收集的顺序是由语句在源文件中出现的顺序决定的

静态语句块中只能访问到定义在静态语句块之前的变量，定义在它之后的变量，在前面的静态语句块可以赋值，但是不能访问，例如：

public class Test {
    static {
        i = 0;                  // 给变量复制可以正常编译通过 
        System.out.print(i);    // 这句编译器会提示“非法向前引用”
    }
    
    static int i = 1;
}

父类的<clinit>()方法先执行，也就意味着父类中定义的静态语句块要优先于子类的变量赋值操作，例如：

public class Parent {
    public static int A = 1;
    static {
        A = 2;
    }
}

class Sub extends Parent {
    public static int B = A;
}

public static void main(String[] args) {
    System.out.println("Sub.B");    // 输出 2
}

<clinit>()方法对于类或接口来说并不是必需的，如果一个类中没有静态语句块，也没有对变量的赋值操作，那么编译器可以不为这个类生成<clinit>()方法。

接口中不能使用静态语句块，但仍然有变量初始化的赋值操作，因此接口与类一样都会生成<clinit>()方法。但接口与类不同的是，执行接口的<clinit>()方法不需要先执行父接口的<clinit>()方法，因为只有当父接口中定义的变量被使用时，父接口才会被初始化。此外，接口的实现类在初始化时也一样不会执行接口的<clinit>()方法。

多线程环境下的 clinit()

Java虚拟机必须保证一个类的<clinit>()方法在多线程环境中被正确地加锁同步

如果多个线程同时去初始化一个类，那么只会有其中一个线程去执行这个类的<clinit>()方法，其他线程都需要阻塞等待，直到活动线程执行完毕<clinit>()方法，例如：

public class Main {
    static class Test {
        static {
            // 如果不加上这个if语句，编译器将提示“Initializer does not complete normally” 并拒绝编译
            if (true) {
                System.out.println(Thread.currentThread() + "init Main");

                while (true) {

                }
            }
        }
    }

    public static void main(String[] args) {
        Runnable runnable = new Runnable() {
            @Override
            public void run() {
                System.out.println(Thread.currentThread() + "start");
                Test m = new Test();
                System.out.println(Thread.currentThread() + " run over");
            }
        };
        Thread thread1 = new Thread(runnable);
        Thread thread2 = new Thread(runnable);
        thread1.start();
        thread2.start();
    }
}

// 控制台输出结果： 一条线程在死循环以模拟长时间操作，另外一条线程在阻塞等待
// Thread[Thread-1,5,main]start
// Thread[Thread-0,5,main]start
// Thread[Thread-1,5,main]init Main

// （程序一直在运行并未停止）

需要注意，其他线程虽然会被阻塞，但如果执行＜clinit＞()方法的那条线程退出＜clinit＞()方法后，其他线程唤醒后则不会再次进入＜clinit＞()方法。同一个类加载器下，一个类型只会被初始化一次。

JVM 类加载过程

简介

加载

验证

文件格式验证

元数据验证

字节码验证

符号引用验证

准备

解析

符号引用

直接引用

缓存解析结果

初始化

类构造器 clinit ()

多线程环境下的 clinit()

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读