美文网首页自然语言处理
通过NLTK.tree对stanford nlp parser结

通过NLTK.tree对stanford nlp parser结

作者: 京漂的小程序媛儿 | 来源:发表于2019-01-07 13:45 被阅读0次

    项目需求

    将stanford nlp parser结果可视化为tree,然后对tree进行解析,得到每个叶子结点的全路径。

    1.stanford nlp parser

    结果是str,通过nltk.tree.Tree的fromstring()将str转化为nltk.tree.Tree。

    2.nltk.tree.Tree

    有很多函数可以使用,API查看:http://www.nltk.org/_modules/nltk/tree.html

    例如draw()可以将树可视化,label()是该树(当前树木,并不只是原树)的跟结点的值,len(tree)可以得到这棵树的孩子个数(例如二叉树,那孩子个数最多是2)。

    3.关于树的遍历

    接下来说说我们通常自定义的tree和nltk.tree.Tree不同之处

    1.关于左右孩子的访问。

    我们传统意义上定义的树有左右孩子结点,如下:

    关于tree的定义

    这样我们在访问的时候就很简单,用node.left和node.right即可,但怎耐我们要用nltk定义的tree结构啊,所以我们必须研究nltk.tree.Tree是怎么用左右孩子的。所以其实逻辑都一样,主要是把一些对应的函数给换了,但在这里我就卡了四五个小时。

    nltk.tree.Tree数据结构中没有left_child和right_child,而tree[0]就代表第一个孩子,tree[1]就代表第二个孩子,但是在使用之前,防止数组越界访问,我们要先用len(tree)来判断孩子个数。

    2.关于叶子结点的判断。

    在传统意义上的tree访问时,我们通过判断该node同时没有左右结点来认定其是否是叶子结点,判断条件如下:

    node.left is None and node.right is None

    但是我们nltk.tree.Tree没有左右结点概念,所以我们可以通过两种方式来判断:

    其1:type(node)

    当type(node)==str时,说明是叶子结点,否则type一定是nltk.tree.Tree,则不是叶子结点。这一点也是研究了好久才发现。例如:

    解析树

    上图所示,清华这个node的type就是str,print的结果是“清华”。而清华上面那个结点NR的type就是nltk.tree.Tree,print的结果是“NR 清华”,就是说它还是一个子树,而叶子结点就是一个str了。这一点困惑了很久,无奈nltk就是这么定义的。当你不明白这一点时,盲目使用node.label()去得到node的值时,就会报错:

    'str' object has no attribute 'label'

    2.其实也可以用len(node)来判断孩子个数是否为0,但这种其实是有问题的,因为正如上面所说,当前node是叶子结点时,len(node)得到的是字符串长度,而不是子结点个数。所以还是用第一种方法。

    综上,我们给出用stanford nlp解析一段中文,并用nltk可视化,解析,打印其每个叶子结点的全路径的完整代码:(ps:解析树是多叉树,不一定是二叉树,所以用左右结点来定义也不合适。)

    # -*- coding: utf-8 -*-

    #!/usr/bin/env python

    # -*- coding: utf-8 -*-

    from stanfordcorenlpimport StanfordCoreNLP

    from nltk.treeimport *

    def MultiTreePaths(root):

        def helper(root, path, res):

            if type(root)==str:

                res.append(path +str(root))

                return

            l=len(root)

            for I in range(l):

                    if len(root)>=i:

                        if root[i]:

                            helper(root[i], path +str(root.label()) +'->', res)

        if root is None:

            return []

        l = []

        helper(root, '', l)

        return l

    nlp = StanfordCoreNLP('/Users/wangwenhua/Downloads/stanford-corenlp-full-2018-10-05', lang='zh')

    sentence ='清华大学位于北京。'

    treestring=nlp.parse(sentence)#依存句法分析

    tree=Tree.fromstring(treestring)

    r=MultiTreePaths(tree)#打印每个叶子结点的全路径

    print(r)

    tree.draw()#可视化

    格式有点乱,截图如下:

    stanford nlp+NLTK+tree

    运行结果如下:

    解析结果

    关于树叶子结点的路径打印,参考代码如下:

    树的定义以及二叉遍历叶子结点路径

    调用:

    调用

    相关文章

      网友评论

        本文标题:通过NLTK.tree对stanford nlp parser结

        本文链接:https://www.haomeiwen.com/subject/udskrqtx.html