penn2malt

作者: zenRRan | 来源:发表于2016-10-25 16:30 被阅读0次

penn2malt介绍

penn2malt
总的来说,就是把短语句法树转成依存树。

举例 短语句法树 举例 依存树

具体了解这俩种树

这是终端调用的参数 (上面那个链接描述很详细了):

格式

使用

里面苦恼的应该是找 rule了。不同的标准语句库大致相同,rule也查不到哪里出去。没有的评论我给你。基本长这样:

rule

这是我批处理运行文件内容(windows .bat linux .sh):

Paste_Image.png

其中第一行是我对原语句的处理(如果运行penn2malt不成功的话就得一步一步修改大语料库的细节-------改语料库是真的费劲...) 接下来的是运行penn2malt (3个分别是 训练语句,开发语句,测试语句)

最终每次运行penn2malt就会生成3个文件:

Paste_Image.png

.tab就是生成的依存树文本格式。

Paste_Image.png

理解起来很简单:比如第一列 上海 后面的 2 ,就表示它是依存于第二个词 浦东 的。
0表示根节点也就是中心词
NR N/V-MOD...专业人士都懂,不做解释。
这就是其中一个句子的依存树。

再说一个注意的点: penn2malt 中文语料库是ANXI格式的!我竟然不知道一开始,还弄了一天格式转换和windows linux平台转换。。

相关文章

  • penn2malt

    penn2malt介绍 penn2malt总的来说,就是把短语句法树转成依存树。 具体了解这俩种树 这是终端调用的...

网友评论

    本文标题:penn2malt

    本文链接:https://www.haomeiwen.com/subject/jqbruttx.html