知识蒸馏的T

作者: 一颗大葡萄树 | 来源:发表于2020-07-20 16:32 被阅读0次

知识蒸馏的T
【技术博客】通过量化知识来解释知识蒸馏
知识蒸馏
知识蒸馏
知识蒸馏
知识蒸馏
python | 实现带Temperature的SoftMax（
一分钟带你认识深度学习中的知识蒸馏
知识蒸馏论文
知识蒸馏-简单

不光是提高准确率，更重要的是要学习大模型的泛化能力。如果Soft-target携带信息过多，就需要用到温度T了，需要T来把重要的信息“蒸馏”出来。具体做法就是用大模型的倒数第二层先除T,再通过softmax预测一个soft-target，小模型也是一样，倒数第二层除同样的温度T，然后softmax预测结果，再使用这个结果作为交叉熵的一部分，另一部分就是ground truth标签和正常输出。Total loss 就是把这两个loss 加权之后合起来作为小模型的最终loss更新模型。预测就不需要温度T了

知识蒸馏的T
不光是提高准确率，更重要的是要学习大模型的泛化能力。如果Soft-target携带信息过多，就需要用到温度T了，需...
【技术博客】通过量化知识来解释知识蒸馏
【技术博客】****通过量化知识来解释知识蒸馏知识蒸馏介绍知识蒸馏（Knowledge Distillatio...
知识蒸馏
知识蒸馏（Knowledge Distillation）：知识蒸馏即将知识从「教师」模型迁移到「学生」模型，执行...
知识蒸馏
最近在实验用MobilenetV3在分类数据集上的效果，想起了Hinton之前搞过的知识蒸馏模型来训练小网络。简而...
知识蒸馏
知识蒸馏是什么？一份入门随笔 - LinT的文章 - 知乎https://zhuanlan.zhihu.com/p...
知识蒸馏
一、简介 https://zhuanlan.zhihu.com/p/258721998[https://zhuan...
python | 实现带Temperature的SoftMax（
写在前面未经允许，不得转载，谢谢~~ 在Hiton大佬的知识蒸馏文章中提出用带T（Temperature）的so...
一分钟带你认识深度学习中的知识蒸馏
摘要：知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法一、知识蒸馏入门 1.1...
知识蒸馏论文
Romero, A.; Ballas, N.; Kahou, S. E.; Chassang, A.; Gatta...
知识蒸馏-简单
参考文献： https://github.com/DA-southampton/NLP_ability/blob/...