美文网首页
Distilling the Knowledge in a Ne

Distilling the Knowledge in a Ne

作者: Junr_0926 | 来源:发表于2018-12-02 22:37 被阅读0次

1. 介绍

在论文中,作者提出了先训练一个大的笨重的模型,再使用distilling来将笨重的模型的知识迁移到小的模型中,用于实际部署。
通常情况下,我们认为一个模型的知识保存在它的参数中,这使得我们很难想象到如何来改变模型,而不丢失知识。然后,另一种较为抽象的对待知识的角度,是将知识看作是输入到输出的映射。
一种简单地将大模型的泛化性能转移到小模型的方式是,将大模型得到的类别概率作为小模型的soft targets来训练。
当soft targets有很高的entropy时,它们能够提供足够多的信息,同时拥有较低的variance,所以小模型只需要很小的数据就能训练,也可以使用很大的学习率。

2. Distillation

通常情况下,我们使用softmax来将logitz_i转变为概率q_i,如下:

(1)
2
如果temperature相对于logits的大小来说比较高,可以使用如下近似:
3

相关文章

网友评论

      本文标题:Distilling the Knowledge in a Ne

      本文链接:https://www.haomeiwen.com/subject/bnmscqtx.html