这是涂铭的书-python自然语言处理实战的笔记,后续章节也会持续更新。
代码,数据集资料:Python自然语言处理实战
NLP可分成两个部分:
- 自然语言理解
- 自然语言生成
语言理解包括很多学科:
- 音系学:发音的系统化组织
- 词态学:单词构成和相互关系
- 句法学:语法正确
- 语义学:什么意思
- 语用学:说了干嘛
语言生成包含三个阶段:
- 文本规划
- 语句规划
- 实现
NLP的用途:
- 机器翻译
- 情感分析
- 智能问答
- 文摘生成
- 文本分类(分类辣鸡邮件)
- 舆论分析
- 知识图谱(知识域可视化)
NLP相关知识的构成
基本术语
- 分词(segment):最小的有意义的语言成分。英语用空格分割,而汉语会存在歧义问题。例如:美/国会/通过对台售武法案,美国/会/通过对台售武法案。
- 词性标注(part-of-speech tagging):基于机器学习的方法里往往需要对词性进行标注。例如:我/r爱/v北京/ns天安门/ns。ns名词,v动词。
- 命名实体识别(NER,Named Entity Recognition):文本中识别特定实体,例如:人名、地名、机构名、专有名词。
- 句法分析(syntax parsing):往往是基于规则的专家系统,分析句子主从依赖关系。例如:小李是小杨的班长 和 小样是小李的班长,主从不同。
- 指代消解(anaphora resolution):中文中代词比较多。例如:小明是条狗,它会咬人。我们用它代表小明却不会再把小明重复说一遍。
- 情感识别(emotion recognition):本质上是分类问题。一般用于舆论分析。
- 纠错(correction)自动纠错技术,例如:搜索或我们用的输入法中。
- 问答系统(QA system)类似机器人的只能系统,例如:siri,cortana。
语料库
NLP的几个层面
- 第一层面:词法分析
- 第二层面:句法分析
- 第三层面:语义分析
和编译原理差不多,本书主要讲了第一和第二部分。
网友评论