自然语言处理（NLP）知识整理及概述（一）

作者: JudeArcturus | 来源:发表于2019-01-01 01:07 被阅读47次

自然语言处理（NLP）知识整理及概述（一）
自然语言处理（NLP）知识整理及概述（二）
自然语言处理（NLP）知识整理及概述（四）
自然语言处理（NLP）知识整理及概述（三）
自然语言生成概述
16套免费的NLP课程及经典教材
自然语言处理
NLP自然语言处理-第一章NLP基础
使用 Python 进行社交媒体情感分析入门
使用 Python 进行社交媒体情感分析入门！

这是我在留学期间选修的课程：natura language process。这篇文章主要是为了大致的梳理这门课上的知识点，方便日后复习。因此，语言处理的主体对象是English。

语言模型 Language Model （LM）

简单来说，语言模型就是一个对于不同单词出现概率的统计。
然而，对于英语来说，每个单词可能有不同的时态和单复数等形态变化。因此，在做统计前，需要先对原始数据进行预处理和归一化。

常见的文本预处理

word tokenisation: 这一步是识别一个单词的组成。例如 URL, 连字符等，这一token不是字母连续的，往往夹杂着标点符号，但仍需作为一个整体来对待。
text normalization：因为单词有大小写区分，在实际应用中处理比较麻烦，往往需要统一转化成小写形式。但这一步可能导致的问题是无法正确理解全大写单词的意义。例如US 和us，前者可以表示美国。对于不同的应用目的，这一步可以考虑对于这类全大写单词normalization时加个tag，例如： uppercase + us。
Stopwords removal： is, am ,the 等单词并没有实际的意义，只是为了句子通畅。去除这些单词有助于更好的进行分析。在NLTK中提供了这类单词的列表，同时也可以根据自己的需要增加或减少。
Lemmatisation and stemming: 英语单词有时态、单复数之分，如果当前的分析任务不关注这些东西，可以通过lemmatisation或stemming的方式将其还原。这样可以压缩词库的大小。 lemmatisation 是真实意义上的词性还原，例如将visitors 还原为visitor，符合人类的习惯，还原后的也是一个单词，但就是处理速度很慢。Stemming则是根据英语的一些后缀规律，简单粗暴地进行还原。例如，visitors会被还原成visit。
具体实现参考词形还原工具对比
sentence segmentation: 这一步是防止在整句处理时出现歧义。例如 Phd. , U.K. 等单词，句号并不是一句话的结束，而应该把他们作为一个整体来考虑。
标点是否为句子的结束（end of sentence, EOS）用以下decision tree来判断：

EOS 判断

分割句子后，每句话应该作为一个元素单独存储。

n-gram

一般来说，常用的是 unigram, bigram 和trigram, 即以1-3 个词作为一个对象来统计。n 越大，统计结果也越稀疏。一个七八个词的组合重复出现的概率，显然远低于2-3个词的组合。另一方面，根据马尔科夫链，一个单词的出现，可以认为仅跟前一个词有关系，所以也没有太大必要追求过大的n。
n-gram 是一个重要的基础概念，它所提供的概率分析可以做到很多事情，例如机器翻译“请给我打电话”：P(“please call me”) > P("please call I ")。又比如拼写纠正：基于概率， “its 5pm now” → 纠正为 “it's 5pm now”

Evaluation and perplexity

没有比较就没有伤害。对于语言模型的评估，也需要有一个比较的对象。因此，要用两种方法建立不同的语言模型（当然也可以对比前人的工作成果）。显然，任意给一个测试用的句子，如果在某一模型中的出现概率都比较大，那么这个模型显然更好。具体来说，评估方法有两种：

Extrinsic evaluation: 直接投放到实际应用环境中测试。
Intrinsic evaluation: 使用perplexity来评估。
显然第一种效果能提供真实的评估，但是不太现实。因此实际上主要还是用第二种方法来评估语言模型的好坏。

首个单词问题：对于一个基于bigram或trigram的模型，在计算一个句子的perplexity时，前1或2个单词需要不能直接得到，依赖于句子开头的标识符。也即是说，在训练 n-gram 模型时，对于每个句子，分别在开头和结尾填充n-1个<s>。从而保证在计算perplexity的时候能够正确地从第一个单词开始计算。这也是为什么前面 sentence segmentation 的时候要将句子区别存储的原因。

Smoothing

显然，无论用来生成LM的corpus多么庞大，总会有些单词没有被包含其中（称为out of vocabulary， OOV）。解决方法有两种，一是实现设定一个固定的字典，在训练LM过程中，所有不在字典中的单词统一转换成 token <UNK>，另一种是将LM中出现频率小于n次的单词当作 <UNK>，剩下的作为字典。根据字典对测试数据做相同操作，就可以避免OOV的问题。
在处理完OOV问题后，还有一个问题需要处理：所有单词都在字典中，但是单词的组合并没有在LM中出现这一情况。此时就需要对基于bigram或trigram的LM进行smooth操作，规避这一问题。Smoothing过程有1点需要注意，就是smooth之后的模型，其所有概率加起来，必须仍然为1。常见的smoothing方法有：

Additive smoothing(Laplace smoothing)
Good-Turing
Jelinek-Mercer smoothing (interpolation)
Katz smoothing (backoff)
Witten-Bell smoothing
Absolute discounting
Kneser-Ney smoothing
其中，Laplace smoothing 虽然简单，但效果很差，常作为一个baseline的smoothing方法。

特别的，工程上最适合的应该是 stupid backoff algorithm, 这一算法并不确保整体概率为1。仅仅是在回退时乘以系数0.4计算。即如果trigram没有找到，就使用0.4×P(bigram)，如果bigram还是没找到，就是要 0.4×0.4×P(unigram)。由于OOV问题已解决，所以对于任意一个词，必然能计算出其概率。

网友评论

本文标题：自然语言处理（NLP）知识整理及概述（一）

本文链接：https://www.haomeiwen.com/subject/owtglqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

自然语言处理（NLP）知识整理及概述（一）

语言模型 Language Model （LM）

常见的文本预处理

n-gram

Evaluation and perplexity

Smoothing

相关文章

自然语言处理（NLP）知识整理及概述（一）

自然语言处理（NLP）知识整理及概述（二）

自然语言处理（NLP）知识整理及概述（四）

自然语言处理（NLP）知识整理及概述（三）

自然语言生成概述

16套免费的NLP课程及经典教材

自然语言处理

NLP自然语言处理-第一章NLP基础

使用 Python 进行社交媒体情感分析入门

使用 Python 进行社交媒体情感分析入门！

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读