词法分析
词法分析又称词法分析器或者扫描器,是编译程序的基本子程序之一。本项目采用手工方式设计并实现词法分析程序。
词法分析的功能
扫描源程序,按语言的词法规则识别出各类单词符号(Token),并将有关字符组合成为单词并输出,同时进行词法检查。语言的保留字,标识符,常数和运算符等都是单词的例子。
Token分类
将PL/0编译系统中所有的字符,字符串的类型按如下表格分类:
类型 | 字符or字符串 |
---|---|
保留字 | begin, end, if,then, else, const, procedure,var,do,while, call,read, write, repeat, until |
算数运算符 | + ,—,*,/ |
比较运算符 | <> , < ,<= , >, >= ,= |
赋值符 | := , = |
标识符 | 变量名,过程名,常数名 |
常数 | 10,25等整数 |
界符 | ‘,’,‘.’,‘;’,‘(’,‘)’ |
其他符号 | :,EOF |
Token结构
在具体实现时,由于出错处理及语法分析的需求,定义如下Token结构:
public class Token {
private SymType st; //token的类别
private int line; //token所在行,错误处理使用
private String value; //token的值,只有标识符和常量有值
}
Token分析程序的构造
首先,给出状态图:
状态图根据状态图,可以写出分析程序analysis()
private Token analysis() {
strToken = "";
getChar();
while ((ch == ' ' || ch == '\n' || ch == '\t' || ch == '\0') && searchPtr < buffer.length) {
if (ch == '\n') {
line++;
}
getChar();
}
if (ch == '$' && searchPtr >= buffer.length) { //到达文件末尾
return new Token(SymType.EOF, line, "-1");
}
if (isLetter()) { //首位为字母,可能为保留字或者变量名
while (isLetter() || isDigit()) {
strToken += ch;
getChar();
}
retract();
for (int i = 0; i < keyWords.length; i++) {
if (strToken.equals(keyWords[i])) { //说明是保留字
return new Token(SymType.values()[i], line, "-");
}
}
//不是保留字,则为标识符,需要保存值
return new Token(SymType.SYM, line, strToken);
} else if (isDigit()) { //首位为数字,即为整数
while (isDigit()) {
strToken += ch;
getChar();
}
retract();
return new Token(SymType.CONST, line, strToken);
} else if (ch == '=') { //等号
return new Token(SymType.EQU, line, "-");
} else if (ch == '+') { //加号
return new Token(SymType.ADD, line, "-");
} else if (ch == '-') { //减号
return new Token(SymType.SUB, line, "-");
} else if (ch == '*') { //乘号
return new Token(SymType.MUL, line, "-");
} else if (ch == '/') { //除号
return new Token(SymType.DIV, line, "-");
} else if (ch == '<') { //小于或不等于或小于等于
getChar();
if (ch == '=') {
return new Token(SymType.LESE, line, "-");
} else if (ch == '>') {
return new Token(SymType.NEQE, line, "-");
} else {
retract();
return new Token(SymType.LES, line, "-");
}
} else if (ch == '>') { //大于或大于等于
getChar();
if (ch == '=') {
return new Token(SymType.LARE, line, "-");
} else {
retract();
return new Token(SymType.LAR, line, "-");
}
} else if (ch == ',') { //逗号
return new Token(SymType.COMMA, line, "-");
} else if (ch == ';') { //分号
return new Token(SymType.SEMIC, line, "-");
} else if (ch == '.') { //点
return new Token(SymType.POI, line, "-");
} else if (ch == '(') { //左括号
return new Token(SymType.LBR, line, "-");
} else if (ch == ')') { //右括号
return new Token(SymType.RBR, line, "-");
} else if (ch == ':') { //赋值号
getChar();
if (ch == '=') {
return new Token(SymType.CEQU, line, "-");
} else {
retract();
return new Token(SymType.COL, line, "-");
}
}
return new Token(SymType.EOF, line, "-");
}
analysis()每次分析出一个Token。对代码进行一遍遍历,即可得到源程序的token数组。
网友评论