论文解读：Recurrent Neural Network Tr

作者: 调参写代码 | 来源:发表于2017-05-18 14:13 被阅读133次

Hinton的Distillation研究了如何利用一个复杂网络来训练简单网络，但是训练出来的简单网络性能只能逼近复杂网络。而这篇文章则提出了一个相反的思路：利用简单网络来帮助训练简单网络，从而提升网络的性能。

Dark knowledge for complex model training

软标签有两个优势：

为模型训练提供了更多的有效信息，而不仅仅是绝对的硬标签。
软标签模糊了类之间的决策边界，提供了更为平滑的训练，使得训练更加可靠。也就是说，如果能够很好地学习teacher模型的话，那么训练的方差将为0，这使得训练更加有效可靠。

Regularization view

同时利用硬标签和软标签进行预测，可以看成是一种正则化的方法。

除了上面的正则化方法，我们可以先采用软标签对模型进行训练，然后再利用硬标签进行微调。由于软标签能够提供可靠的训练，所以用来作为初始化。然而，软标签所提供的信息并没有足够的区分度，也就是噪声很大，所以采用硬标签进行微调更为有效。

这种预训练方法有三个优势：

从实验结果中可以看到，采用预训练的方法得到的模型更加鲁棒。

本文标题：论文解读：Recurrent Neural Network Tr

本文链接：https://www.haomeiwen.com/subject/bshdxxtx.html