学习《文本分析》之分词、词性标注及语法树

作者: oneape15 | 来源:发表于2019-01-11 09:18 被阅读2次

学习《文本分析》之文本索引和检索
学习《文本分析》之分词、词性标注及语法树
NLTK文本预处理与文本分析
自然语言处理绪论
基于Trie 树实现简单的中文分词
Python自然语言处理资料库（长期更新，欢迎补充）
自然语言处理层次
分词词性标注之jieba
自然语言处理——7.9 总结、习题
NLP：分词算法综述

前提概述

上一章我们讲了一些文本分析中一些基本概念，如果未看过的点击这里，了解一下文本分析涉及到的一些技术和方法。

句子的切分和分词

为了对文本进行分析，我们首先需要把文本切分成一个一个的句子。完成这个功能的软件叫着切分器（Sentence Detector，也叫Chunker）。然后我们要把句子进行分词，完成该功能的软件叫分词器（Tokenizer）

词性标注

词性标注（Part-of-Speech Tagger, 简称POS Tagger)软件分析某种语言的文本，然后针对每个词赋予POS标记。比如名词、动词、形容词等。
这里以斯坦福大学开源的POS Tagger(Stanford Log-linear POS Tagger)为例，它使用了条件对数线性模型(Conditional Loglinear Model)实现词性的标注。这个软件已经为英语训练好了词性标注模型，还提供了阿拉伯语、中文、法语、德语等语言的词性标注模型。

语法树

在自然语言处理中，语法解析器(Parser)接收语句，并且对句子的语法结构进行分析，输出语法解析树(Parser Tree). Parser首先对句子的文本进行分词，然后进行POS标注(POS tagging)。
根据POS标注结果以及句子成分信息，构建句子的语法解析树。
比如句子：I ran into Tom and Jack and then we went shopping. 解析成一棵语法树如下图：