美文网首页大数据相关
学习《文本分析》之分词、词性标注及语法树

学习《文本分析》之分词、词性标注及语法树

作者: oneape15 | 来源:发表于2019-01-11 09:18 被阅读2次

    前提概述

    上一章我们讲了一些文本分析中一些基本概念,如果未看过的点击这里,了解一下文本分析涉及到的一些技术和方法。

    句子的切分和分词

    为了对文本进行分析,我们首先需要把文本切分成一个一个的句子。完成这个功能的软件叫着切分器(Sentence Detector,也叫Chunker)。然后我们要把句子进行分词,完成该功能的软件叫分词器(Tokenizer)

    词性标注

    词性标注(Part-of-Speech Tagger, 简称POS Tagger)软件分析某种语言的文本,然后针对每个词赋予POS标记。比如名词、动词、形容词等。
    这里以斯坦福大学开源的POS Tagger(Stanford Log-linear POS Tagger)为例,它使用了条件对数线性模型(Conditional Loglinear Model)实现词性的标注。这个软件已经为英语训练好了词性标注模型,还提供了阿拉伯语、中文、法语、德语等语言的词性标注模型。

    语法树

    在自然语言处理中,语法解析器(Parser)接收语句,并且对句子的语法结构进行分析,输出语法解析树(Parser Tree). Parser首先对句子的文本进行分词,然后进行POS标注(POS tagging)。
    根据POS标注结果以及句子成分信息,构建句子的语法解析树。
    比如句子:I ran into Tom and Jack and then we went shopping. 解析成一棵语法树如下图:


    语法树

    实现语法树分析的具体技术包括:

    • 概率型上下文无关语法分析技术(PCFG - Probabilistic Context-Free Grammar)
    • 移位归约语法分析技术(Shift-Reduce Constituency Parser);
    • 基于神经网络的语法分析技术(Neural Network Dependency Parser);
      以上的这些技术已经非常成熟,都能够获得准确的分析结果。

    相关文章

      网友评论

        本文标题:学习《文本分析》之分词、词性标注及语法树

        本文链接:https://www.haomeiwen.com/subject/kgnzrqtx.html