1. 基本术语
1.1 分词(segment)
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文分词的基础与关键。中文和英文都存在分词的需求,不过相较而言,英文单词本来就有空格进行分割,所以处理起来相对方便。但是,由于中文是没有分隔符的,所以分词的问题就比较重要。分词常用的手段是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。举个例子,“美国会通过对台售武法案”,我们既可以切分为“美国/会/通过对台售武法案”,又可以切分成“美/国会/通过对台售武法案”。
中文分词技术可分为三大类:
- 基于字典、词库匹配的分词方法;
- 基于词频统计的分词方法
- 基于知识理解的分词方法。
http://www.cnblogs.com/flish/archive/2011/08/08/2131031.html
1.2 词性标注(part-of speech tagging/POS tagging)
基于机器学习的方法里,往往需要对词的词性进行标注。词性一般是指动词、 名词、形容词等。标注的目的是表征词的一-种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。例如:我/r爱/v北京/ns天安门/ns。其中,ns代表名词,v代表动词,ns、v都是标注,以此类推。
词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。
http://blog.csdn.net/truong/article/details/18847549
1.3 命名实体识别(NER, Named Entity Recognition)
命名实体是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。主要包含两部分:
- 实体边界识别;
- 确定实体类别(人名、地名、机构名或其他)
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具。
https://blog.csdn.net/u012879957/article/details/81777838
1.4 句法分析(syntax parsing)
句法分析往往是一种基于规则的专家系统。当然也不是说它不能用统计学的方法进行构建,不过最初的时候,还是利用语言学专家的知识来构建的。句法分析的目的是解析句子中各个成分的依赖关系。所以,往往最终生成的结果是一棵 句法分析树。句法分析可以解决传统词袋模型不考虑上下文的问题。比如,“小李是小杨的班长”和“小杨是小李的班长”,这两句话,用词袋模型是完全相同的,但是句法分析可以分析出其中的主从关系,真正理清句子的关系。
1.5 指代消解(anaphora resolution)
中文中代词出现的频率很高,它的作用的是用来表征前文出现过的人名、地名等。例如,清华大学坐落于北京,这家大学是目前中国最好的大学之-。 在这句话中, 其实“清华大学”这个词出现了两次,“这家大学指代的就是清华大学。但是出于中文的习惯,我们不会把“清华大学”再重复一遍。
一般情况下,指代分为2种:回指和共指。
回指是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性和非传递性;
共指主要是指2个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。
目前指代消解研究主要侧重于等价关系,只考虑2个词或短语是否指示现实世界中同一实体的问题,即共指消解。
中文的指代主要有3种典型的形式:
-
人称代词(pronoun),例如:李明怕高妈妈一人呆在家里寂寞,他便将家里的电视搬了过来。
-
指示代词(demonstrative),例如:很多人都想留下什么给孩子,这可以理解,但不完全正确。
-
有定描述(definitedescription),例如:,贸易制裁已经成为了美国政府对华的惯用大棒,这根大棒真如美国政府所希望的那样灵验吗?
https://blog.csdn.net/tcx1992/article/details/83377233
1.6 情感识别(emotion recognition)
所谓情感识别,本质上是分类问题,经常被应用在舆情分析等领域。情感一般可以分为两类,即正面、负面,也可以是三类,在前面的基础上,再加上中性类别。一般来说,在电商企业,情感识别可以分析商品评价的好坏,以此作为下一个环节的评判依据。通常可以基于词袋模型+分类器,或者现在流行的词向量模型+RNN。经过测试发现,后者比前者准确率略有提升。
1.7 纠错(correction)
自动纠错在搜索技术以及输人法中利用得很多。由于用户的输人出错的可能性比较大,出错的场景也比较多。所以,我们需要一个纠错系统。具体做法有很多,可以基于N-Gram进行纠错,也可以通过字典树、有限状态机等方法进行纠错。
1.8 问答系统(QA system)
这是一种类似机器人的人工智能系统。比较著名的有:苹果Siri、IBM Watson、微软小冰等。问答系统往往需要语音识别、合成,自然语言理解、知识图谱等多项技术的
问答系统(Question Answering System, QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。
- 依据问题类型可分为:限定域和开放域两种;
- 依据数据类型可分为:结构型和无结构型(文本);
- 依据答案类型可分为:抽取式和产生式两种。
基于自由文本的问答系统,基本上分为三个模块:
问句分析->文档检索->答案抽取(验证)
https://blog.csdn.net/class_guy/article/details/81535287
2. 知识体系
2.1 句法语义分析:
针对目标句子,进行各种句法分析,如分词、词性标记、命名实 体识别及链接、句法分析、语义角色识别和多义词消歧等。
2.2 关键词抽取:
抽取目标文本中的主要信息,比如从一-条新闻中抽取关键信息。主要是了解是谁、于何时、为何、对谁、做了何事、产生了有什么结果。涉及实体识别、时间抽取、因果关系抽取等多项关键技术。
2.3 文本挖掘:
主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面。
2.4 机器翻译:
将输人的源语言文本通过自动翻译转化为另种语言的文本。根据输人数据类型的不同,可细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则到二十年前的基于统计的方法,再到今天的基于深度学习(编解码)的方法,逐渐形成了一套比较严谨的方法体系。
2.5 信息检索:
对大规模的文档进行索引。可简单对文档中的词汇,赋以不同的权重来建立索引,也可使用算法模型来建立更加深层的索引。查询时,首先对输人比进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
2.6 问答系统:
针对某个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查我可能的候选答案并通过-个排序机制找出最佳的答案。
2.7 对话系统:
系统通过多回合对话,跟用户进行聊天、回答、完成某项任务。主要涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,对话系统还需要基于用户画像做个性化回复
3. NLP 主要研究方向有哪些?
- 信息抽取:从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。
- 文本生成:机器像人一样使用自然语言进行表达和写作。依据输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。
- 问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
- 对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。
- 文本挖掘:包括文本聚类、分类、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
- 语音识别和生成:语音识别是将输入计算机的语音符号识别转换成书面语表示。语音生成又称文语转换、语音合成,它是指将书面文本自动转换成对应的语音表征。
- 信息过滤:通过计算机系统自动识别和过滤符合特定条件的文档信息。通常指网络有害信息的自动识别和过滤,主要用于信息安全和防护,网络内容管理等。
- 舆情分析:是指收集和处理海量信息,自动化地对网络舆情进行分析,以实现及时应对网络舆情的目的。
- 信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
- 机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码 - 解码)的方法,逐渐形成了一套比较严谨的方法体系。
4. NLP 四大任务
- 序列标注: 分词, 词性标注, 命名实体识别, 语义角色标注。 特点是句子中每个单词要求模型根据上下文都要给出一个分类类别
- 分类任务: 文本分类, 情感分析。 特点是不管文章有多长,总体给出一个分类类别即可。
- 句子关系推断: Entailment, QA, 自然语言推理。 特点是给定两个句子,模型判断出两个句子是否具备某种语义关系。
- 生成式任务:机器翻译, 文本摘要。特点是输入文本内容后,需要自主生成另外一段文字。
网友评论