神经网络语言建模系列之四：噪声对比评估

作者: 施孙甲由 | 来源:发表于2019-02-08 21:39 被阅读490次

神经网络语言建模系列之四：噪声对比评估
神经网络语言建模系列之五：层级输出
神经网络语言建模系列之六：字符级模型
CS224N(6)-语言模型和循环神经网络
泰坦尼克号系列目录
15届数模B题：光传送网建模与价值评估进展
15届数模B题：光传送网建模与价值评估分析
神经网络语言建模系列之一：基础模型
噪声对比估计
神经网络语言建模系列之二：细枝末节

噪声对比评估（Noise-Contrastive Estimation, NCE）作为通用的统计模型评估方法，可被应用于各类统计模型。而后被作为加速方法引入到神经网络语言建模中，并且极大地提升了神经网络语言模型的训练速度，甚至改善了模型的PPL指标。

正如本系列的上篇文章《神经网络语言建模系列之三：重要性采样》中指出的，减少神经网络语言模型的计算量是该领域的研究热点之一，其中一个重要的思路就是针对输出层，通过采样的方法来避免进行全部输出节点的计算。本文将介绍另一种基于采样的加速方法，即噪声对比评估。噪声对比评估由Gutmann and Hyvärinen (2012)提出，作为统计模型评估的新方法，并在自然图像统计模型（Natural Image Statistical Model）上取得了成功。Mnih and Teh (2012)将噪声对比评估引入到神经网络语言模型中，提升了神经网络语言模型的训练效率。Ashish and Zhao (2013)则在神经网络机器翻译（Neural Machine Translation, NMT）模型中应用噪声对比评估来提升模型的训练速度。Liza and Grzes (2017)指出虽然噪声对比评估在神经网络语言建模和机器翻译中取得了一定的效果，但在神经网络语言建模中的应用不算成功，主要原因是模型超参的影响并没有得到仔细的研究。针对这个问题，提出了参数调节的方法，尤其是学习率。

噪声对比评估

噪声对比评估的基本思想就是将概率评估转化为二分类问题，区分样本是来自于观察到的数据分布 $P(x)$ 的还是噪声分布 $Q(x)$ 。该评估方法可以直接应用于非归一化的模型，因此可以避免非归一化的计算，从而减少统计模型输出层的计算量。对于神经网络语言模型这类输出项较多的统计模型，计算量的减少就更为显著。

通常统计模型就是表示一类分布函数族的参数模型 $p_{m}(x:\theta)$ ，其中 $\theta$ 为模型的参数。利用数据集对参数模型进行训练时，数据所表示的分布为 $p_{d}(x)$ 。假设数据分布 $p_{d}(x)$ 包含于分布函数族 $p_{m}(x:\theta)$ ，即 $p_{d}(x) = p_{m}(x:\theta^*)$ ， $\theta^*$ 为通过使得目标函数在数据集上最大化得到的模型参数的解。

统计模型的解 $\theta^*$ 要产生合理规范的分布 $p_m(x:\theta^*)d$ ，需要满足自然约束限制，即概率分布的积分为 $1$ ，对于离散概率分布，其概率的和为 $1$ 。由于神经网络语言模型中的概率表示通常以离散化的方式表示，因此本文均采用离散分布的形式。离散概率分布的自然约束可表示为：

$\sum_{i=0}^{N}p_m(x_i:\theta^*) = 1$

其中， $N$ 为离散概率的数量。通常统计模型的输出为非归一化的概率 $y(x_i:\theta^*)$ ，不能严格地满足自然约束，需要进行额外的处理。但是自然约束通常可以利用归一化方法很容易的实现，即：

$p_m(x_i:\theta^*) = \frac{e^{-y(x_i:\theta^*)}}{Z}, Z= \sum_{j=1}^{N}y(x_j:\theta^*)$

其中，归一化因子 $Z$ 的计算涉及模型的所有输出项，常常会引起许多问题。比如积分无法通过解析方法计算，当数据维度较高时，数值方法求解积分则比较困难。

针对归一化因子计算所引起的问题，Gutmann and Hyvärinen (2012)提出了噪声对比评估。噪声对比评估方法将归一化因子 $Z$ 作为模型的参数，而非通过显式计算获得。将归一化的概率进行如下转换：

${\ln}p_m(x_i:\theta^*) = -y(x_i:\theta^*) - c, c = \ln{Z}$

其中， $c$ 将作为模型的参数，此时只有在 $c$ 取特定的值的情况下，概率 $p_m(x_i:\theta^*)$ 才能满足自然约束。

噪声对比评估的主要思想是通过对比进行学习，即对比或者区分样本来自于数据还是噪声，将概率评估问题转化为二分类问题。假设二分类的类别分别为 $D=1$ 和 $D=0$ ，噪声分布为 $p_n(x)$ 。为了使得两个分类的概率相等，设定如下的伪概率：

$\widetilde{p}(D=1|x_i,\theta^*) = \frac{p_m(x_i:\theta^*)}{p_m(x_i:\theta^*) + p_n(x_i)}$

模型训练的目标函数则设定为：

$J = \frac{1}{2T}\sum_{t=1}^{T}\ln[\widetilde{p}(D=1|x_t,\theta^*) ] + \ln[1 - \widetilde{p}(D=1|y_t,\theta^*) ]$

其中， $x_t$ 为来源于数据分布，而 $y_t$ 为来源于噪声分布。

语言模型加速

在神经网络语言模型中，在 $t$ 时刻，输出层直接输出的为非归一化的条件概率 $y_i(w_i|w_{0}^{t-1})$ ，即各个词在当前上文下的非归一化条件概率。其中， $w_i (i = 1, 2, \cdots, N_v)$ 为词典中的词， $N_v$ 为词典的大小， $w_{0}^{t-1}$ 为 $t$ 时刻的上文。通常采用Softmax对条件概率进行归一化，即：

$p(w_i{\mid}w_{0}^{t-1}) = \frac{e^{-y(w_i|w_{0}^{t-1})}}{\sum_{j=1}^{N_v}e^{-y(w_j|w_{0}^{t-1})}}, Z = \sum_{j=1}^{N_v}e^{-y(w_j|w_{0}^{t-1})}$

由于归一化的原因，需要计算模型的所有输出。而神经网络语言模型的输出项等于词典的大小，一般在几十万或者上百万，其计算量巨大。Mnih and Teh (2012)提出利用噪声对比评估的方法可以减少输出层的计算量，基本思路是将目标词作为来源数据分布的样本，其他词则看作噪声分布的样本，并对噪声样本进行采样，而不是考虑字典中的所有词，从而减少神经网络语言模型训练阶段的计算量。

利用噪声对比评估，将条件概率的评估转化为二分类问题，其伪概率为：

$\widetilde{P}(w_t) = P(D = 1|w_t, w_0^{t-1}) = \frac{p(w_t|w_0^{t-1})}{p(w_t|w_0^{t-1}) + kQ(w_t|w_0^{t-1})}$

其中， $Q$ 为噪声分布， $k$ 表示噪声样本的被采样次数是数据样本的 $k$ 倍数，换句话讲，就是在 $t$ 时刻，目标词只有一个，即数据样本数为 $1$ ，根据噪声分布，选取 $k$ 个其他词作为噪声样本。

虽然概率评估问题就是多分类问题，本质上与二分类问题类似，但由于问题进行了转换，并且引入了采样，就需要对目标函数进行相应的修改。引入噪声对比评估后，神经网络语言模型训练的目标函数由原来的最大似然函数更改为：

$J = \log\widetilde{P}(w_t) + \sum_{w^{'}\sim{Q}}\log(1 - \widetilde{P}(w^{'}))$

噪声对比评估方法能够避免进行归一化计算的根本原因还是将归一化因子作为模型参数，而非显式计算获得。引入的模型参数为 $c = \ln{Z}$ ，于是，条件概率则转化为：

$p(w_i{\mid}w_{0}^{t-1}) = \frac{e^{-y(w_i|w_{0}^{t-1})}}{e^c}$

正如噪声对比评估中所提到的，神经网络语言模型直接输出的非归一化的概率要满足自然约束，就需要选择特定的 $c$ 值。Mnih and Teh (2012)通过实验证明， $c$ 设定为 $0$ ，模型便能够取得很好的效果，不需要通过模型训练学习获得。而Chen and et. al. (2015)将引入了噪声对比评估的神经网络语言模型应用到语音识别（Speech Recognition）中，实验结果显示将 $c$ 设定为 $9$ 时，模型的结果以及加速效果达到最好的平衡。Ji and et. al. (2016)指出 $c=0$ 时会得到次优的结果，并且不同的 $c$ 值选取，会导致数值不稳定。由于不同的研究所采用的模型存在差异，实验的设置也不同，很难进行比较分析的得出定论，但在不同的情况下， $c$ 应该需要根据具体情况进行调整。

为了说明噪声对比评估在神经网络语言模型应用中的效果，此处引用Mnih and Teh (2012)的实验结果，实验中所采用的模型是对数双线性语言模型模型（Log-Bilinear Language Model, LBL），实验结果的具体数据如下：

序号	模型	采样数	PPL	时间
01	LBL	-	163.5	21h
02	LBL + NCE	1	192.5	1.5h
03	LBL + NCE	5	172.6	1.5h
04	LBL + NCE	25	163.1	1.5h
05	LBL + NCE	100	159.1	1.5h

从实验结果可以看出，采用噪声对比评估后，模型训练的效率提高了14倍。实验中还分析了不同的采样数对模型的影响，不难看出，当采样数增加时，模型PPL指标便改善了，甚至超过了原始模型，很出乎意料。但是增加采样数增加时，模型训练时间却不变，这是因为当采样数较少时，模型需要更多的迭代步才能达到收敛。

Liza and Grzes (2017)对引入噪声评估后，模型参数的设置进行了研究。

总结

噪声对比评估能够有效地提升神经网络语言模型的训练效率，但与重要性采样等采样方法类似，仅能够加速训练阶段的计算速度，对预测阶段没有提速效果。

作者：施孙甲由（原创）

神经网络语言建模系列之四：噪声对比评估
噪声对比评估（Noise-Contrastive Estimation, NCE）作为通用的统计模型评估方法，可被...
神经网络语言建模系列之五：层级输出
除了基于采样的神经网络语言模型的加速方法，另一个重要的加速神经网络语言模型的研究方向是层级输出(Hierarchi...
神经网络语言建模系列之六：字符级模型
语言建模一直均以分词为最小单位，即词级语言模型。后来研究者尝试在字符级别进行语言建模，提出了数种字符级的语言模型，...
CS224N(6)-语言模型和循环神经网络
语言模型和循环神经网络一、语言模型 1、简介简单来讲，语言模型就是通过对预测接下来会出现什么词这个任务建模得到...
泰坦尼克号系列目录
泰坦尼克号系列（一）——数据初探和初步特征选取泰坦尼克号系列（二）——建模和特征工程及其评估
15届数模B题：光传送网建模与价值评估进展
该题主要包括以下几部分内容：光纤信道噪声建模和多级放大噪声建模 QAM调制和解调仿真根据上述仿真结果，对光纤部...
15届数模B题：光传送网建模与价值评估分析
该题主要包括以下几部分内容：光纤信道噪声建模和多级放大噪声建模 QAM调制和解调仿真根据上述仿真结果，对光纤部...
神经网络语言建模系列之一：基础模型
1. 前言语言建模（Language Modeling, LM）作为人工智能领域的基础任务之一，在诸如自然...
噪声对比估计
说到噪声对比估计，或者“负采样”，大家可能立马就想到了Word2Vec。事实上，它的含义远不止于此，噪音对比估计（...
神经网络语言建模系列之二：细枝末节
熟悉神经网络语言模型的主体结构并不足以建立性能较好的模型。建立成功的神经网络语言需要注重许多细节处理，如词典的构建...