基于 JVM 的语言的实现 -- 以 Wit 为例 (一)

作者: zqq90 | 来源:发表于2018-08-08 19:10 被阅读0次

基于 JVM 的语言的实现 -- 以 Wit 为例 (一)
Gradle For Android读书笔记
Kotlin for JavaScript（Vue.js的互调兼
Kotlin 语言极简教程 v0.1 （东海陈光剑）
Day1—Irene
Python 实现 PCA
Gradle 入门--只此一篇
NLP-统计语言模型的平滑方法
linux 和 mac 下计算特点目下的代码行数
Python 接口测试实践（Requests）-用例封装及测试报

前置基础知识点

Febit Wit 简介 -- 惯例吹牛时间

Wit 是我 2013 年开始开发的一个准 JVM 上的语言, 起初的定位是模板引擎,之后慢慢发现, 在语法上可以做的更强大, 于是现在成了一个准脚本引擎.

Wit 语法类似 JavaScript, 在设计的时候也参考了许多. 另外, 他还支持自定义函数，全局变量，Lambda 表达式. 因为是当初并没有把他产品化, 只是将它作为一个与国内某开源作者较劲的产物, 每次觉得那些设计不合适就残忍地大改. 由此, 自认为这是一个, 核心模块轻巧，无第三方依赖，的个人代表作. (

以至于每次发布都会炫耀一下这个 Jar 包才 310 KB

Wit 采用BSD开源协议, 托管在 Github, [我是传送门], Star 少的可怜, 大家多多支持

Show Time

(旁白君: 主演怯(tou)场(lan), 此段跳过, 大家可以移步往期回顾(并没有) , 或者看看这里有什么好东西 --> wit-toys

语言? 太远! 先实现个表达式

我们先来看一下 a + b, 计算过程可分为三步:

从 a 的地址取实际值 A
从 b 的地址取实际值 B
执行加法运算返回

a_b.png

现在复杂一点儿, 我们看一下 a + b + 10, 多了一个操作, 且多了新的类型--直接量,归一化一下,其实可以转换成(a+b) + 10, 在已知条件下, 可以拆解成三步:

调用已知步骤, 得到 (a+b) 的结果
取直接量 1 (为什么要取出来? 就像我们切菜, 所有的操作都是要放到砧板上来的)
执行 "砧板" 上两个数的运算, 把结果返回

a_b_10.png

好了, 现在问题稍微复杂一点儿, 我们来扩充到四则运算, 2 * a + b / 3 + 10, 这里涉及到操作符优先级, 相信大家都能画出来一个处理这个表达式的数形结构

2a_b3_10.png

现在我们继续尝试一下归一化, 上面的可以抽象成两个概念:

表达式 (Expression, expr): a, b, 1, (a+b), (2 * a), (2 * a + b / 3).... 等等,他们在一个数中, 都是为他的更上层提供一个最终结果, 无论是取内存取值, 还是加载一个直接量, 或者是某种上层不关心的操作

操作符(operator, oper): 就像例子中的提到的四则运算, 可以认为是对给定数据的一种算法

现在, 我们用 + 指代其他类似操作符, 以上表达式, 无非不过 expr + expr, 如果继续扩充的话,

expr_expr.png

除此之外 = 也可以看成操作符, 只不过它对左边的表达式要求更高, 必须是一个可赋值的, 如地址引用, 数组的某个位置, Map 的某个索引位置

因此, 赋值也可以写成链式: a = b = (c = 1) + 1, 或者 if(flag = !disabled) { ... }, 只不过大多数规范都不建议这么写

操作符还根据需要的数据的数量分, 单目、二目、三目运算符..., 就像参数传参, 可以传不同数量的参数,

单目操作符 如: 取负, 取反, 取非,自增, 自减等.

二目操作符 较常见

user.name  // 属性操作符
arr[i]  // 数组操作符
a + b // 部分运算符

说到 三目运算符, 必须得举一个特殊的例子: 条件运算符 exprA ? exprB : exprC , 这个和前面的不同, 不是将三个表达式都算出来之后传给操作符, 实际的逻辑是:

取 exprA 计算值 A
如果 A 为真, 执行 exprB 并返回结果
否则执行并返回 exprC 的结果

简单说,就是根据 exprA 的结果选择执行 exprB 还是 exprC, 其中, 只有一个分支能得到执行的机会

当然 exprA 如果抛异常了, 或者中断退出了, 例如 System.exit(1), 两者都不执行

// 错误理解
var A = exprA() // 副作用 A'
var B = exprB() // 副作用 B'
var C = exprC() // 副作用 C'
if(A){
    return B
} else {
    return C
}

// 实际等价
var A = exprA() // 副作用 A'
if(A){
    return exprB() // 副作用 B'
} else {
    return exprC() // 副作用 C'
}

最后, 还有个容易被大家忽视的概念, 操作符的结合性, 这是个扩中内容, 也就是大部分常见操作符都是自左向右结合的, 但有些相反, 是自右向左

还是以条件运算符 exprA ? exprB : exprC
对于 A ? B : C ? D : E 到底是 (A ? B : C) ? D : E 还是 A ? B : (C ? D : E)

"a" ? "b" : "c"
// -> "b"
("a" ? "b" : "c") ? "d" : "e"
// -> "d"
"a" ? "b" : ( "c" ? "d" : "e")
// -> "b"
"a" ? "b" : "c" ? "d" : "e"
// -> "b"
// 结论: 自右向左

其他的自右向左的操作符我们这里不再展开, 大家可以很容易搜到相关文章

语句(Statement) 的列表构成语法树

一段能改变上线文的独立的逻辑, 即产生了副作用, 就可以认为是语句
一些 表达式 都可以在完结时产生副作用, 即使丢弃返回值, 这也是语句的一种 -- 表达式语句

像直接量和一些简单的运算, 都不会产生副作用, 通常都不能当做语句

// 非法语句
1;
1 + 2;
a + b;
arr[1];

// 合法语句: 存在副作用
i ++;
a = 1;
func();
arr[1] ++;

// 非法: 最外层操作不具有副作用
a + func();

除此之外还有一些特殊语法类型的语句,

// 变量声明
var a, b, c;
var d, e = 1; // 声明 + 赋值表达式
var [f, g] = [1, 2];  // 声明 + 赋值表达式

// 控制语法
if(flag) { <语句列表> }
for(var i : arr) { <语句列表>}
while(flag) { <语句列表>}
switch(a) { <语句列表> }

// 语法糖
arr = [1, 2, 3, a + b ];
map = {
    id,    // 只提供现有的变量名, 取名作为key, 取值作为值, 等同于 map["id"] = id
    1 : "a",   // 直接量作为 key
    [ -1-1 ] : "e",   // 表达式作为 key, 使用 [] 内的表达式的结果作为key, 等同于 map[-1-1] = "e"
    "x-y-z" : "XYZ",  // 支持最后一个元素冗余逗号
};

// 其他特殊语法
{ <语句列表> }  // 代码块
new_list = native new java.util.ArrayList();  // 导入 java 函数引用

接下来, 我们看一下一个 demo 的语法树的全貌

var map = {
    id: "9527",
    "my name": "Wit",
    [101] : 1,
    [102] : 2,
    [111] : 11
};

var func;
var flag = 0;
func = function(val){
    flag ++;
    if(true){
        echo "aaaa";
        return;
    }
    echo val != "inner";
    echo "\n";
    return null;
};

ast-tree.png

不尽兴的的话, 大家可以自行断点调试, 跟进到 Template 的 ast 字段就可以看到了

如何构建语法树 -- 编译

为了简化编译过程, 我们将其拆成了两个部分
词法解析 (Lexer), 将文本按照规范, 拆成 "单词"(Token), 例如:
println ( "Hello Wit !" ); 将会拆解成

标识符 println
分隔符 (
直接量 Hello Wit !
分隔符 )
分隔符 ;

语法解析 (Parser) : 将 Token 序列按照语法规则生成语法树
例如上面的例子就符合 函数调用语句 的语法

funcExecuteExpr ::= expression:funcExpr LPAREN expression[COMMA]:list COMMA? RPAREN
{: return createMethodExecute(%funcExpr%, 
   StatementUtil.toExpressionArray(%list%), 
   %funcExpr.line%, %funcExpr.column%); :}

expression_statementable ::= funcExecuteExpr:$
statement ::= expression_statementable:$ SEMICOLON

templateAST ::= statement[]:list ?

这里涉及到 编译原理 中的很多知识点, 点到为止, 就不展开了

幸运的是, 我们有工具可以直接生成 Lexer 和 Parser, 我们只需要把我们期望的语法规则描述出来就可以了

Wit 用的是 JFlex + Java CUP (定制版)

大家可以在这里找到语法描述文件, 感兴趣的可以看看 , 不需要了解太多编译原理的知识也能看懂

Lexer.jflex

Parser.cup

语法树的优化

幂等节点消除

这是一个理想的范围, 但起码, 我们能够明确一下几个场景是可以合并的:

只有直接常量参与幂等计算, 如: 1 + 2
通过等价变换, 可以满足上一条的
针对模板消除, 提前把文本字符串序列化成目标编码的字节流
合并相邻的文本输出
即使有不确定值, 但是在前置信息中即可判断 True/False 的部分
空语句消除

特定场景算子实现

ForIn vs. ForInNoLoops 等
If vs. IfElse vs. IfNot
TryCatchFinally vs. TryFinally

语法树的执行

调用就更简单了, 我们让 Statement 和 Expression 都实现自己的执行接口

Object execute(InternalContext context);

例如条件运算符的实现:

public final class IfOperator extends Expression {

    public Object execute(final InternalContext context) {
        return (ALU.isTrue(ifExpr.execute(context))
            ? leftValueExpr
            : rightValueExpr).execute(context);
    }
}

大家各司其职, 做好自己的事情之后返回一个结果, 或者对上下文 Context 做些变更, 整个事情就解决了

可以认为是一个对语法树的 不完整 的 深度遍历

小结

啰嗦了这么多, 我们已经明确了可行性, 只要补充上细节实现就可以了, 我将会在下篇深入展开这些细节, 希望大家继续关注

基于 JVM 的语言的实现 -- 以 Wit 为例 (一)
前置基础知识点 Febit Wit 简介 -- 惯例吹牛时间 Wit 是我 2013 年开始开发的一个准 JVM ...
Gradle For Android读书笔记
一、理解gradle gradle是基于Groovy语言的项目构建框架实现，Groovy是一种基于JVM的动态语言...
Kotlin for JavaScript（Vue.js的互调兼
Kotlin介绍基于 JVM 的编程语言 Kotlin Kotlin 是一个基于 JVM 的新的编程语言，由 J...
Kotlin 语言极简教程 v0.1 （东海陈光剑）
Kotlin 语言极简教程 v0.1 （东海陈光剑）简介是什么基于 JVM 实现的静态语言 JetBrain...
Day1—Irene
入门引言以转录组学为例，上游分析基于linux，包括质控、过滤、比对、定量，下游分析基于R语言，包括差异分析、富...
Python 实现 PCA
实现基于python带有功能强大的sklearn库，非常适合做机器学习，所以在此以python为例实现。首先，训...
Gradle 入门--只此一篇
是什么？在语法上是基于Groovy语言的（Groovy 是一种基于JVM的敏捷开发语言，可以简单的理解为强类型语...
NLP-统计语言模型的平滑方法
一、引言在NLP-统计语言模型中简要介绍了统计语言模型的原理和实现方法，以bigram为例，计算了的概率，这是...
linux 和 mac 下计算特点目下的代码行数
计算每个文件的行数，单独输出代码（以php语言为例）：计算该目录下所有文件的代码行数之和（以php语言为例）：
Python 接口测试实践（Requests）-用例封装及测试报
今天以天气API接口为例，使用python语言实现用例编写、封装及报告生成功能 API信息：天气API：http...