美文网首页我爱编程
论文解读:Recurrent Neural Network Tr

论文解读:Recurrent Neural Network Tr

作者: 调参写代码 | 来源:发表于2017-05-18 14:13 被阅读133次

    Hinton的Distillation研究了如何利用一个复杂网络来训练简单网络,但是训练出来的简单网络性能只能逼近复杂网络。而这篇文章则提出了一个相反的思路:利用简单网络来帮助训练简单网络,从而提升网络的性能。

    Dark knowledge for complex model training

    软标签有两个优势:

    • 为模型训练提供了更多的有效信息,而不仅仅是绝对的硬标签。
    • 软标签模糊了类之间的决策边界,提供了更为平滑的训练,使得训练更加可靠。也就是说,如果能够很好地学习teacher模型的话,那么训练的方差将为0,这使得训练更加有效可靠。

    Regularization view

    同时利用硬标签和软标签进行预测,可以看成是一种正则化的方法。

    Pre-training view

    除了上面的正则化方法,我们可以先采用软标签对模型进行训练,然后再利用硬标签进行微调。由于软标签能够提供可靠的训练,所以用来作为初始化。然而,软标签所提供的信息并没有足够的区分度,也就是噪声很大,所以采用硬标签进行微调更为有效。

    这种预训练方法有三个优势:

    • 是完全的监督学习,更加任务导向。
    • 这种方法将整个复杂网络进行预训练,而不需要一层层的进行,更加快速有效。
    • 可以用于预训练任何复杂网络,即使是一个像RNN这样的网络。

    EXPERIMENTS

    从实验结果中可以看到,采用预训练的方法得到的模型更加鲁棒。


    相关文章

      网友评论

        本文标题:论文解读:Recurrent Neural Network Tr

        本文链接:https://www.haomeiwen.com/subject/bshdxxtx.html