美文网首页模型压缩
模型压缩(二):知识蒸馏

模型压缩(二):知识蒸馏

作者: 夕一啊 | 来源:发表于2020-04-29 21:45 被阅读0次

先训练一个大模型,再训练一个小模型学习大模型的输出。

大模型不仅学到了类别,还学到了类别之间相似的东西,比真实label更多信息,不知告诉这个图片是1,还告诉它和7/9很像。
从来不给小模型看7,但是因为大模型会教他,所以可能也能得到正确的结果。

学生模型多任务,与老师的soft target的loss是kl散度,真实label的loss是交叉熵。

比赛中用模型融合,但是实际中不能用多个模型,但是学生模型可以学习多个模型,学习融合模型的平均输出。一个模型就能达到模型融合的效果。

soft label

不用onehot,使用一个温度t,拉近不同label间的分数。


(助教在实验中发现知识蒸馏没有特别有用)

参考:

相关文章

网友评论

    本文标题:模型压缩(二):知识蒸馏

    本文链接:https://www.haomeiwen.com/subject/uirowhtx.html