论文网址:https://aclweb.org/anthology/D16-1207
摘要:深度神经网络在许多语言处理方面取得了很好的效果,但很多神经网络的结果对噪声扰动很敏感。论文提出了一种正则化方法,对输入的扰动所造成的敏感结果进行约束,从而提高模型的鲁棒性。实验使用卷积网络对数据集进行训练,和基线(不使用正则化)、drought相比,论文提出的正则化方法取得了最好的效果。
论文中提到传统正则化和drought的比较,其中l2正则的效果和drought效果相当。
传统的模型训练目标是最小化y_true 和 y_pred ,为了提高模型的鲁棒性,我们也希望当噪声添加到input时,输出结果的变化也能最小。用数学公式表示如下:
模型M(x)输入变化px时输出具有py变化从而:
最小化噪声造成的影响等价于最小化输出对输入的偏导矩阵的弗罗贝尼乌斯范数为了最小化扰动噪声的影响,论文对损失函数添加了附加项——L对h的偏导。文中提及,原则上应该考虑x的扰动,但x的离散性质添加了数学公式的复杂性,便推迟了这个研究。
最后,代价函数的设计为:
new loss function其中,lambda是权重项,distance使用l2正则形式。
最后文章提到cnn网络:
名词解释 对句子表示进行k个卷积、非线性变换,然后最大池化 w and b are parameters minimize the loss of the cross-entropy
网友评论