通过NLTK.tree对stanford nlp parser结

作者: 京漂的小程序媛儿 | 来源:发表于2019-01-07 13:45 被阅读0次

通过NLTK.tree对stanford nlp parser结
stanford parser生成依存树使用记录
stanford nlp 句法分析名词解释
stanford parser 使用说明
The Stanford NLP Group
教程
Configure StanfordCoreNLP on Loc
在Mac OS中安装和使用Stanford NLP
StanfordCoreNLP 踩过的坑（python，java
Solr——query parser

项目需求

将stanford nlp parser结果可视化为tree，然后对tree进行解析，得到每个叶子结点的全路径。

1.stanford nlp parser

结果是str，通过nltk.tree.Tree的fromstring()将str转化为nltk.tree.Tree。

2.nltk.tree.Tree

有很多函数可以使用，API查看：http://www.nltk.org/_modules/nltk/tree.html

例如draw()可以将树可视化，label()是该树(当前树木，并不只是原树)的跟结点的值，len(tree)可以得到这棵树的孩子个数(例如二叉树，那孩子个数最多是2)。

3.关于树的遍历

接下来说说我们通常自定义的tree和nltk.tree.Tree不同之处：

1.关于左右孩子的访问。

我们传统意义上定义的树有左右孩子结点，如下：

关于tree的定义

这样我们在访问的时候就很简单，用node.left和node.right即可，但怎耐我们要用nltk定义的tree结构啊，所以我们必须研究nltk.tree.Tree是怎么用左右孩子的。所以其实逻辑都一样，主要是把一些对应的函数给换了，但在这里我就卡了四五个小时。

nltk.tree.Tree数据结构中没有left_child和right_child，而tree[0]就代表第一个孩子，tree[1]就代表第二个孩子，但是在使用之前，防止数组越界访问，我们要先用len(tree)来判断孩子个数。

2.关于叶子结点的判断。

在传统意义上的tree访问时，我们通过判断该node同时没有左右结点来认定其是否是叶子结点，判断条件如下：

node.left is None and node.right is None

但是我们nltk.tree.Tree没有左右结点概念，所以我们可以通过两种方式来判断：

其1:type(node)

当type(node)==str时，说明是叶子结点，否则type一定是nltk.tree.Tree，则不是叶子结点。这一点也是研究了好久才发现。例如：

解析树

上图所示，清华这个node的type就是str，print的结果是“清华”。而清华上面那个结点NR的type就是nltk.tree.Tree，print的结果是“NR 清华”，就是说它还是一个子树，而叶子结点就是一个str了。这一点困惑了很久，无奈nltk就是这么定义的。当你不明白这一点时，盲目使用node.label()去得到node的值时，就会报错：

'str' object has no attribute 'label'

2.其实也可以用len(node)来判断孩子个数是否为0,但这种其实是有问题的，因为正如上面所说，当前node是叶子结点时，len(node)得到的是字符串长度，而不是子结点个数。所以还是用第一种方法。

综上，我们给出用stanford nlp解析一段中文，并用nltk可视化，解析，打印其每个叶子结点的全路径的完整代码：（ps:解析树是多叉树，不一定是二叉树，所以用左右结点来定义也不合适。）

# -*- coding: utf-8 -*-

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from stanfordcorenlpimport StanfordCoreNLP

from nltk.treeimport *

def MultiTreePaths(root):

def helper(root, path, res):

if type(root)==str:

res.append(path +str(root))

return

l=len(root)

for I in range(l):

if len(root)>=i:

if root[i]:

helper(root[i], path +str(root.label()) +'->', res)

if root is None:

return []

l = []

helper(root, '', l)

return l

nlp = StanfordCoreNLP('/Users/wangwenhua/Downloads/stanford-corenlp-full-2018-10-05', lang='zh')

sentence ='清华大学位于北京。'

treestring=nlp.parse(sentence)#依存句法分析

tree=Tree.fromstring(treestring)

r=MultiTreePaths(tree)#打印每个叶子结点的全路径

print(r)

tree.draw()#可视化

格式有点乱，截图如下：

stanford nlp+NLTK+tree

运行结果如下：

解析结果

关于树叶子结点的路径打印，参考代码如下：

树的定义以及二叉遍历叶子结点路径

调用：

调用

网友评论

自然语言处理

本文标题：通过NLTK.tree对stanford nlp parser结

本文链接：https://www.haomeiwen.com/subject/udskrqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

通过NLTK.tree对stanford nlp parser结

项目需求

1.stanford nlp parser

2.nltk.tree.Tree

3.关于树的遍历

相关文章

通过NLTK.tree对stanford nlp parser结

stanford parser生成依存树使用记录

stanford nlp 句法分析名词解释

stanford parser 使用说明

The Stanford NLP Group

教程

Configure StanfordCoreNLP on Loc

在Mac OS中安装和使用Stanford NLP

StanfordCoreNLP 踩过的坑（python，java

Solr——query parser

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

自然语言处理