nlp中的传统语言模型与神经语言模型

作者: fighting41love | 来源:发表于2018-11-03 22:36 被阅读0次

nlp中的传统语言模型与神经语言模型
NLP-神经语言模型：文本生成
word2vec[1] word representation词
零基础进行神经网络语言建模文章
NLP - 预训练模型
CS224N学习笔记（七）—— RNN、LSTM和GRU
零基础进行神经网络语言建模
NLP-统计语言模型的平滑方法
语言模型介绍
Word2vec

总有一些专有名词听上去“很屌”，了解了其概念后，便觉得:“哦，原来是这么简单的小知识点”。语言模型就是这样一个名词，作为nlp基础组件之一，在诸多的上层应用中都有重要应用。

简言之，语言模型就是给一个句子（词序列）分配一个概率。这个概率表示这句话“合理程度”。举个例子：

你儿子在我手上，快点把钱叫出来。 prob=0.80
# 这样一个句子，非常“通顺”，就得到一个很高的概率值。
特朗普在厕所里摆满了多个艺员。 prob=0.20
# 这样一个句子，非常“怪异”，也可能是有别字、语病的，就得到一个很低的概率值。

把语言模型(词序列-->概率)写成公式，就得到了
$P(w_1,.....,w_n)=P(w_1)*P(w_2|w_1)*P(w_3|w_1,w_2)*......*P(w_n|w_1,...,w_{n-1})$ .
上述公式使用了链式法则，即当前第n个词用哪一个，完全取决于前n-1个词。有了上面的公式，我们就可以基于训练语料，计算一个句子的概率值了。这里面有一个问题，每一个词都取决于前n-1个词，这使得计算复杂度猛增。为了简化，采用了Markov-Assumption，即当前要选择的词仅仅依赖于前一个词。有的同学可能会说，对于文本序列，每个当前词仅取决于前一个词，这样会不会过于简单？是的，太简单了，所以传统的语言模型往往采用了k阶Markov-Assumption， $k=3,4,5$ ，写成公式：
$P(w_1,.....,w_n)=\prod_{i=1}^{n}P(w_i|w_{i-k},...,w_{i-1})$ .

很自然的，我们就可以通过对语料的统计，得出一个句子的概率。
传统的语言模型也是这么做的，假设 $\#(w_i,...,w_j)$ 表示词序列 $w_i,...,w_j$ 在语料中出现的次数。那么，对于一个词“word”，运用公式就可以得到：
$P(w_{i+1}|w_{i-k},...,w_{i})=\frac{\#(w_{i-k},...,w_{i+1})}{\#(w_{i-k},...,w_{i})}$
然后对计算得到的多个 $P(w_{i+1}|w_{i-k},...,w_{i-1})$ 连乘，就得到了句子的概率。

这里有个问题，即分母的 $\#(w_{i-k},...,w_{i})$ 等于0，怎么办？
有两种处理方法，1. 平滑技术 2. back-off，又出现了两个看起来很“屌”的词汇，其原理其实非常简单。

平滑技术
既然分母有可能等于0，那我们就加一个常数，不让其等于0，比如在分母处+1，这就是所谓的平滑。如下所示：
$P(w_{i+1}|w_{i-k},...,w_{i})=\frac{\#(w_{i-k},...,w_{i+1})}{\#(w_{i-k},...,w_{i})+1}$
平滑的技术有很多种，大多论文集中在1990-2000年之间，就不详细介绍了。最常见的叫做 $\alpha$ 平滑，即
$P(w_{i+1}|w_{i-k},...,w_{i})=\frac{\#(w_{i-k},...,w_{i+1}+\alpha)}{\#(w_{i-k},...,w_{i})++\alpha |V|}$
其中， $|V|$ 是词表大小， $\alpha$ 是（0,1]之间的常数。
back-off
退一步海阔天空，这可能就是back-off的由来吧，既然 $\#(w_{i-k},...,w_{i})$ 为0
，那就想办法估计一个值出来。这里我们直接给出最佳的“非神经网络语言模型”中使用到的办法，如下所示，看起来很复杂，其实原理很简单。
$p _ { } \left( w _ { i+1 } | w _ { i - k},...,w_i \right) =\lambda_{w_{i-k},...,w_{i+1}} \frac { \# \left( w _ { i - k},...,w_{i+1} \right) } { \# \left( w_{ i - k },..., w_i \right) } +(1-\lambda_{w_{i-k},...,w_i} )p _ { } \left( w _ { i+1 } | w _ { i - (k - 1)} ,..., w_i \right)$
若 $\#(w_{i-k},...,w_{i})$ 为0，则我们使用后一项估计，最后一项是用k-1元gram去估计k元ngram的值。

平滑和back-off的变种很多，详见这篇论文：An Empirical Study of Smoothing Techniques for Language Modeling
非神经网络的最佳语言模型如下：
$p _ { } \left( w _ { i+1 } | w _ { i - k },...,w_i \right) = \frac { \# \left( w _ { i - k},...,w_{i+1} \right) - D \left( \# \left( w _ { i - k },...,w_{i+1} \right) \right) } { \# \left( w _ { i - k },..., w_{i-1} \right) } + \gamma \left( w _ { i - k} ,...,w_{i } \right) p _ { } \left( w_{ i+1 } | w _ { i - (k - 1)} ,..., w_i \right)$

语言模型的评价--perplexity 困惑度
语言模型的变种有很多，如何评价语言模型的好坏呢？
公式如下：
$2 ^ { - \sum _ { x } p ( x ) \log _ { 2 } p ( x ) }$
其中, $p(x)=p _ { } \left( w _ { i+1 } | w _ { i - k },...,w_i \right)$
困惑度值 $(1,+\infty)$ , 就是说一个词序列越不合理，其困惑度越大，即让你越困惑。。。这里有个疑问，为什么用上述公式，其本质是什么，留给大家思考。

传统语言模型的缺点是什么？

平滑技术 or back-off，这类方法属于人工设计规则，设计规则纷繁复杂，哪一种适合什么样的语料，难有定论。困惑度可以用于评价各种规则，但困惑度本身并不是一个完美的评价方法。
词表为V的n-gram数目是 $|V|^n$ ，如果n每增加1，要计算的n-gram至少会倍增。
基于极大似然估计的语言模型缺少对上下文的泛化，比较“死板”。比如，原语料中出现白汽车、黑汽车，而没有黄汽车，该语言模型就会影响对黄汽车的概率估计。当然，某些具体的nlp应用中，这种“死板”反而是一种优势，这种语言模型的灵活性低，但能够降低了recall，提升precision。举个例子，比如，原语料中出现了黑马、白马，这时出现蓝马的概率就很低。而对于灵活的语言模型，很有可能蓝马的概率也偏高。

neural language model 神经语言模型

基于神经网络的语言模型能解决上述三个问题，其模型的数学表达式，简写如下：
$p _ { } \left( w _ { i+1 } | w _ { i - k },...,w_i \right)=softmax(hW^2+b^2)$
以k元文法为例，前k-1个词作为特征，softmax预测最后一个词。词表 $|V|$ 可能很大，比如1000000，这时可以使用heiraichle softmax，能够有效提升效果、节省预测时间。当然，还有一种NEC方法，通过一系列的二分类问题替换交叉熵目标函数。

实例总结

在机器翻译任务中，传统的语言模型和神经语言模型同时使用，会提升翻译质量，模型之间似乎在互相补充。综上所述，神经语言模型的泛化能力更好，传统方法泛化能力差。红马、蓝马的例子中，我们看到泛化能力好，也不一定是优点。在合适的场景下，选择适合的语言模型就ok了。在开发文本纠错的应用过程中，我们采用了传统的语言模型，因为神经语言模型的泛化能力过强，会带来错别字大量误判，反而降低了系统的表现。

nlp中的传统语言模型与神经语言模型
总有一些专有名词听上去“很屌”，了解了其概念后，便觉得:“哦，原来是这么简单的小知识点”。语言模型就是这样一个名词...
NLP-神经语言模型：文本生成
一、引言在NLP-统计语言模型中已经简要介绍过语言模型的相关知识，该文中已阐述语言模型的应用场景和一些传统的实现...
word2vec[1] word representation词
词嵌入 word representation 词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念...
零基础进行神经网络语言建模文章
摘要：本文从最简单的语言模型开始介绍，以优化模型性能为目标，由浅到深的介绍了神经网络模型在语言模型中的应用。语言...
NLP - 预训练模型
早期NLP预训练模型 1. 神经网络语言模型（NNLM） NNLM由Begio在2003年提出发表在JMLR上。神...
CS224N学习笔记（七）—— RNN、LSTM和GRU
一、语言模型语言模型计算特定序列中多个单词的出现概率。一个 m 个单词的序列的概率定义为。传统的语言模型...
零基础进行神经网络语言建模
摘要：本文从最简单的语言模型开始介绍，以优化模型性能为目标，由浅到深的介绍了神经网络模型在语言模型中的应用。 ...
NLP-统计语言模型的平滑方法
一、引言在NLP-统计语言模型中简要介绍了统计语言模型的原理和实现方法，以bigram为例，计算了的概率，这是...
语言模型介绍
做一名知识的搬运工介绍语言模型（LM）是很多自然语言处理（NLP）任务的基础。语言模型是指对于语言序列，计算该...
Word2vec
预备知识：LR、贝叶斯公式、赫夫曼编码、统计语言模型、n-gram模型、神经概率语言模型、词向量、词袋模型、sof...