概述
Java语言的“编译期
”其实是一段“不确定
”的操作过程,因为它可能是指一个前端编译器
(其实叫“编译器的前端
”更准确一些)把.java文件转变成.class文件的过程;也可能是指虚拟机的后端运行期编译器
(JIT编译器
,Just InTime Compiler)把字节码
转变成机器码
的过程;还可能是指使用静态提前编译器
(AOT编译器
,Ahead Of Time Compiler)直接把*.java文件编译成本地机器代码
的过程。
前端编译器:Sun的Javac、EclipseJDT中的增量式编译器(ECJ)[1]。
JIT编译器:HotSpotVM的C1、C2编译器。
AOT编译器:GNUCompilerfortheJava(GCJ)[2]、ExcelsiorJET[3]。
Javac编译器
Javac编译器是一个由Java语言编写的程序。
Javac的源码与调试
Javac的源码存放在JDK_SRC_HOME/langtools/src/share/classes/com/sun/tools/javac
中,除了JDK自身的API外,就只引用了JDK_SRC_HOME/langtools/src/share/classes/com/sun/*
里面的代码,调试环境建立起来简单方便,因为基本上不需要处理依赖关系。
- 以EclipseIDE环境为例,先建立一个名为"
Compiler_javac
"的Java工程
,然后把JDK_SRC_HOME/langtools/src/share/classes/com/sun/*
目录下的源文件
全部复制
到工程的源码目录
中。
![](https://img.haomeiwen.com/i2612980/645dfd362bca9d6e.png)
导入代码期间,源码文件"AnnotationProxy Maker.java"可能会提示"Access Restriction",被Eclipse拒绝编译,这是由于Eclipse的JRE System Library
中默认包含了一系列的代码访问规则(AccessRules),如果代码中引用了这些访问规则所禁止引用的类,就会提示这个错误。可以通过添加一条允许访问JAR包中所有类的访问规则
来解决这个问题。如图所示:
![](https://img.haomeiwen.com/i2612980/9b4082c538e99bb5.png)
导入了Javac的源码后,就可以运行com.sun.tools.javac.Main的main()方法
来执行编译了,与命令行
中使用Javac的命令没有什么区别,编译的文件
与参数
在Eclipse的"Debug Configurations"面板中的"Arguments"页签中指定。
从SunJavac的代码来看,编译过程大致可以分为3个过程,分别是:
- 解析与填充符号表过程。
- 插入式注解处理器的注解处理过程。
- 分析与字节码生成过程。
![](https://img.haomeiwen.com/i2612980/d69bd569aaa89f11.png)
Javac编译动作的入口
是com.sun.tools.javac.main.JavaCompiler
类,上述3个过程的代码逻辑集中在这个类的compile()
和compile2()
方法中,整个编译最关键的处理
就由图中标注的8个方法
来完成。
![](https://img.haomeiwen.com/i2612980/cb75c70d4c9d37ce.png)
解析与填充符号表
1.词法、语法分析
词法分析是将源代码的字符流
转变为标记(Token)集合
。
-
单个字符
是程序编写过程
的最小元素
, -
标记
则是编译过程
的最小元素
,关键字、变量名、字面量、运算符都可以成为标记。
语法分析是根据Token序列构造抽象语法树
的过程。
抽象语法树(AbstractSyntaxTree,AST)
是一种用来描述程序代码语法结构
的树形
表示方式,语法树的每一个节点
都代表着程序代码中的一个语法结构(Construct)
,例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以是一个语法结构。
经过这个步骤之后,编译器就基本不会再对源码文件进行操作了,后续的操作都建立在抽象语法树之上。
2.填充符号表
完成了语法分析和词法分析之后,下一步就是填充符号表的过程。
符号表(SymbolTable)
是由一组符号地址
和符号信息
构成的表格
,读者可以把它想象成哈希表
中K-V值对
的形式(实际上符号表不一定是哈希表实现,可以是有序符号表、树状符号表、栈结构符号表等)。
符号表中所登记的信息在编译的不同阶段
都要用到。
- 在语义分析中,符号表所登记的内容将用于
语义检查
(如检查一个名字的使用和原先的说明是否一致)和产生中间代码
。 - 在目标代码生成阶段,当对
符号名
进行地址分配
时,符号表是地址分配的依据
。
注解处理器
在JDK1.5之后,Java语言提供了对注解(Annotation)
的支持,这些注解与普通的Java代码一样,是在运行期间
发挥作用的。
在JDK1.6中实现了JSR269规范,提供了一组插入式注解处理器
的标准API在编译期间
对注解进行处理,我们可以把它看做是一组编译器的插件
,在这些插件里面,可以读取
、修改
、添加
抽象语法树中的任意元素
。
如果这些插件在处理注解期间对语法树进行了修改,编译器将回到
解析及填充符号表的过程重新处理
,直到
所有插入式注解处理器都没有
再对语法树进行修改为止
,每一次循环称为一个Round
,也就是图104中的回环过程。
有了编译器注解处理的标准API后,我们的代码才有可能干涉编译器
的行为,由于语法树中的任意元素,甚至包括代码注释
都可以在插件之中访问到,所以通过插入式注解处理器实现的插件在功能上有很大的发挥空间。
举例:典型的 Lombok 插件。
语义分析与字节码生成
1. 标注检查
标注检查步骤检查的内容包括诸如变量使用前是否已被声明
、变量与赋值之间的数据类型是否能够匹配
等。
在标注检查步骤中,还有一个重要的动作称为常量折叠
,如果我们在代码中写了如下定义:inta=1+2;·那么在语法树上仍然能看到字面量“1”、“2”以及操作符“+”,但是在经过常量折叠之后,它们将会被折叠为字面量“3”。由于
编译期间进行了常量折叠,所以在代码里面定义
"a=1+2"比起直接定义
"a=3",并
不会增加程序
运行期哪怕仅仅一个CPU指令的
运算量`。
2.数据及控制流分析
数据及控制流分析是对程序上下文逻辑
更进一步的验证
。
它可以检查出诸如程序局部变量在使用前是否有赋值
、方法的每条路径是否都有返回值
、是否所有的受查异常都被正确处理
了等问题。
编译时期
的数据及控制流分析与类加载时
的数据及控制流分析的目的基本一致
,但校验范围有所区别
,有一些校验项只有在编译期或运行期才能进行。
3. 解语法糖
语法糖(SyntacticSugar),也称糖衣语法
,指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用
。
通常来说,使用语法糖能够增加程序的可读性,从而减少程序代码出错的机会。
Java中最常用的语法糖
主要是前面提到过的泛型
(泛型并不一定都是语法糖实现,如C#的泛型就是直接由CLR支持的)、变长参数
、自动装箱/拆箱
等。
虚拟机运行时不支持这些语法,它们在编译阶段还原
回简单的基础语法结构,这个过程称为解语法糖
。
4. 字节码生成
字节码生成是Javac编译过程的最后一个阶段。
把前面各个步骤所生成的信息(语法树、符号表)转化成
字节码写到磁盘
中,编译器还进行少量的代码添加
和转换
工作。
例如,前面章节中多次提到的实例构造器<init>()方法
和类构造器<clinit>()方法
就是在这个阶段添加到语法树之中的。
注意,这里的
实例构造器
并不是
指默认构造函数
,如果用户代码中没有提供任何构造函数,那编译器将会添加一个没有参数的、访问性(public、protected或private)与当前类一致
的默认构造函数,这个工作在填充符号表阶段
就已经完成。
这两个构造器的产生过程实际上是一个代码收敛的过程,编译器会把语句块
(对于实例构造器而言是“{}”块,对于类构造器而言是"static{}"块)、变量初始化
(实例变量和类变量)、调用父类的实例构造器
(仅仅是实例构造器,<clinit>()方法中无须调用父类的<clinit>()方法,虚拟机会自动保证父类构造器的执行,但在<clinit>()方法中经常会生成调用java.lang.Object的<init>()方法的代码)等操作收敛到<init>()和<clinit>()方法之中,并且保证一定是按先执行父类的实例构造器,然后初始化变量,最后执行语句块的顺序
进行。
除了生成构造器以外,还有其他的一些代码替换
工作用于优化程序的实现逻辑,如把字符串的加操作
替换为StringBuffer
或StringBuilder
(取决于目标代码的版本是否大于或等于JDK1.5)的append()操作
等。
Java语法糖的味道
1. 泛型与类型擦除
本质
是参数化类型
(ParametersizedType)的应用,也就是说所操作的数据类型
被指定为一个参数
。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
2. 自动装箱、拆箱与遍历循环
- 自动装箱、拆箱在编译之后被转化成了对应的
包装
和还原
方法,如Integer.valueOf()与Integer.intValue()方法. - 遍历循环则把代码还原成了
迭代器的实现
,这也是为何遍历循环需要被遍历的类实现Iterable接口
的原因。 - 变长参数,它在调用的时候变成了一个
数组类型的参数
。
自动装箱陷阱
包装类
的“==”运算
在不遇到算术运算
的情况下不会自动拆箱
,以及它们equals()方法不处理数据转型
。
3. 条件编译
根据布尔常量值
的真假,编译器将会把分支中不成立的代码块消除掉
,这一工作将在编译器解除语法糖阶段
完成。
Java语言的语法糖:泛型、自动装箱、自动拆箱、遍历循环、变长参数、条件编译、内部类、枚举类、断言语句、对枚举和字符串(在JDK1.7中支持)的switch支持、try语句中定义和关闭资源(在JDK1.7中支持)等,都可以通过跟踪Javac源码
、反编译Class文件
等方式了解它们的本质实现
。
网友评论