噪声对比评估(Noise-Contrastive Estimation, NCE)作为通用的统计模型评估方法,可被应用于各类统计模型。而后被作为加速方法引入到神经网络语言建模中,并且极大地提升了神经网络语言模型的训练速度,甚至改善了模型的PPL指标。
正如本系列的上篇文章《神经网络语言建模系列之三:重要性采样》中指出的,减少神经网络语言模型的计算量是该领域的研究热点之一,其中一个重要的思路就是针对输出层,通过采样的方法来避免进行全部输出节点的计算。本文将介绍另一种基于采样的加速方法,即噪声对比评估。噪声对比评估由Gutmann and Hyvärinen (2012)提出,作为统计模型评估的新方法,并在自然图像统计模型 (Natural Image Statistical Model)上取得了成功。Mnih and Teh (2012)将噪声对比评估引入到神经网络语言模型中,提升了神经网络语言模型的训练效率。Ashish and Zhao (2013)则在神经网络机器翻译(Neural Machine Translation, NMT)模型中应用噪声对比评估来提升模型的训练速度。Liza and Grzes (2017)指出虽然噪声对比评估在神经网络语言建模和机器翻译中取得了一定的效果,但在神经网络语言建模中的应用不算成功,主要原因是模型超参的影响并没有得到仔细的研究。针对这个问题,提出了参数调节的方法,尤其是学习率。
噪声对比评估
噪声对比评估的基本思想就是将概率评估转化为二分类问题,区分样本是来自于观察到的数据分布的还是噪声分布
。该评估方法可以直接应用于非归一化的模型,因此可以避免非归一化的计算,从而减少统计模型输出层的计算量。对于神经网络语言模型这类输出项较多的统计模型,计算量的减少就更为显著。
通常统计模型就是表示一类分布函数族的参数模型,其中
为模型的参数。利用数据集对参数模型进行训练时,数据所表示的分布为
。假设数据分布
包含于分布函数族
,即
,
为通过使得目标函数在数据集上最大化得到的模型参数的解。
统计模型的解要产生合理规范的分布
,需要满足自然约束限制,即概率分布的积分为
,对于离散概率分布,其概率的和为
。由于神经网络语言模型中的概率表示通常以离散化的方式表示,因此本文均采用离散分布的形式。离散概率分布的自然约束可表示为:
其中,为离散概率的数量。通常统计模型的输出为非归一化的概率
,不能严格地满足自然约束,需要进行额外的处理。但是自然约束通常可以利用归一化方法很容易的实现,即:
其中,归一化因子的计算涉及模型的所有输出项,常常会引起许多问题。比如积分无法通过解析方法计算,当数据维度较高时,数值方法求解积分则比较困难。
针对归一化因子计算所引起的问题,Gutmann and Hyvärinen (2012)提出了噪声对比评估。噪声对比评估方法将归一化因子作为模型的参数,而非通过显式计算获得。将归一化的概率进行如下转换:
其中,将作为模型的参数,此时只有在
取特定的值的情况下,概率
才能满足自然约束。
噪声对比评估的主要思想是通过对比进行学习,即对比或者区分样本来自于数据还是噪声,将概率评估问题转化为二分类问题。假设二分类的类别分别为和
,噪声分布为
。为了使得两个分类的概率相等,设定如下的伪概率:
模型训练的目标函数则设定为:
其中,为来源于数据分布,而
为来源于噪声分布。
语言模型加速
在神经网络语言模型中,在时刻, 输出层直接输出的为非归一化的条件概率
,即各个词在当前上文下的非归一化条件概率。其中,
为词典中的词,
为词典的大小,
为
时刻的上文。通常采用Softmax对条件概率进行归一化,即:
由于归一化的原因,需要计算模型的所有输出。而神经网络语言模型的输出项等于词典的大小,一般在几十万或者上百万,其计算量巨大。Mnih and Teh (2012)提出利用噪声对比评估的方法可以减少输出层的计算量,基本思路是将目标词作为来源数据分布的样本,其他词则看作噪声分布的样本,并对噪声样本进行采样,而不是考虑字典中的所有词,从而减少神经网络语言模型训练阶段的计算量。
利用噪声对比评估,将条件概率的评估转化为二分类问题,其伪概率为:
其中,为噪声分布,
表示噪声样本的被采样次数是数据样本的
倍数,换句话讲,就是在
时刻,目标词只有一个,即数据样本数为
,根据噪声分布,选取
个其他词作为噪声样本。
虽然概率评估问题就是多分类问题,本质上与二分类问题类似,但由于问题进行了转换,并且引入了采样,就需要对目标函数进行相应的修改。引入噪声对比评估后,神经网络语言模型训练的目标函数由原来的最大似然函数更改为:
噪声对比评估方法能够避免进行归一化计算的根本原因还是将归一化因子作为模型参数,而非显式计算获得。引入的模型参数为,于是,条件概率则转化为:
正如噪声对比评估中所提到的,神经网络语言模型直接输出的非归一化的概率要满足自然约束,就需要选择特定的值。Mnih and Teh (2012)通过实验证明,
设定为
,模型便能够取得很好的效果,不需要通过模型训练学习获得。而Chen and et. al. (2015)将引入了噪声对比评估的神经网络语言模型应用到语音识别(Speech Recognition)中,实验结果显示将
设定为
时,模型的结果以及加速效果达到最好的平衡。Ji and et. al. (2016)指出
时会得到次优的结果,并且不同的
值选取,会导致数值不稳定。由于不同的研究所采用的模型存在差异,实验的设置也不同,很难进行比较分析的得出定论,但在不同的情况下,
应该需要根据具体情况进行调整。
为了说明噪声对比评估在神经网络语言模型应用中的效果,此处引用Mnih and Teh (2012)的实验结果,实验中所采用的模型是对数双线性语言模型模型(Log-Bilinear Language Model, LBL),实验结果的具体数据如下:
序号 | 模型 | 采样数 | PPL | 时间 |
---|---|---|---|---|
01 | LBL | - | 163.5 | 21h |
02 | LBL + NCE | 1 | 192.5 | 1.5h |
03 | LBL + NCE | 5 | 172.6 | 1.5h |
04 | LBL + NCE | 25 | 163.1 | 1.5h |
05 | LBL + NCE | 100 | 159.1 | 1.5h |
从实验结果可以看出,采用噪声对比评估后,模型训练的效率提高了14倍。实验中还分析了不同的采样数对模型的影响,不难看出,当采样数增加时,模型PPL指标便改善了,甚至超过了原始模型,很出乎意料。但是增加采样数增加时,模型训练时间却不变,这是因为当采样数较少时,模型需要更多的迭代步才能达到收敛。
Liza and Grzes (2017)对引入噪声评估后,模型参数的设置进行了研究。
总结
噪声对比评估能够有效地提升神经网络语言模型的训练效率,但与重要性采样等采样方法类似,仅能够加速训练阶段的计算速度,对预测阶段没有提速效果。
作者:施孙甲由 (原创)
网友评论