美文网首页
知识蒸馏的T

知识蒸馏的T

作者: 一颗大葡萄树 | 来源:发表于2020-07-20 16:32 被阅读0次

不光是提高准确率,更重要的是要学习大模型的泛化能力。如果Soft-target携带信息过多,就需要用到温度T了,需要T来把重要的信息“蒸馏”出来。具体做法就是用大模型的倒数第二层先除T,再通过softmax预测一个soft-target,小模型也是一样,倒数第二层除同样的温度T,然后softmax预测结果,再使用这个结果作为交叉熵的一部分,另一部分就是ground truth标签和正常输出。Total loss 就是把这两个loss 加权之后合起来作为小模型的最终loss更新模型。预测就不需要温度T了

相关文章

  • 知识蒸馏的T

    不光是提高准确率,更重要的是要学习大模型的泛化能力。如果Soft-target携带信息过多,就需要用到温度T了,需...

  • 【技术博客】通过量化知识来解释知识蒸馏

    【技术博客】****通过量化知识来解释知识蒸馏 知识蒸馏介绍 知识蒸馏(Knowledge Distillatio...

  • 知识蒸馏

    知识蒸馏(Knowledge Distillation): 知识蒸馏即将知识从「教师」模型迁移到「学生」模型,执行...

  • 知识蒸馏

    最近在实验用MobilenetV3在分类数据集上的效果,想起了Hinton之前搞过的知识蒸馏模型来训练小网络。简而...

  • 知识蒸馏

    知识蒸馏是什么?一份入门随笔 - LinT的文章 - 知乎https://zhuanlan.zhihu.com/p...

  • 知识蒸馏

    一、简介 https://zhuanlan.zhihu.com/p/258721998[https://zhuan...

  • python | 实现带Temperature的SoftMax(

    写在前面 未经允许,不得转载,谢谢~~ 在Hiton大佬的知识蒸馏文章中提出用带T(Temperature)的so...

  • 一分钟带你认识深度学习中的知识蒸馏

    摘要:知识蒸馏(knowledge distillation)是模型压缩的一种常用的方法 一、知识蒸馏入门 1.1...

  • 知识蒸馏论文

    Romero, A.; Ballas, N.; Kahou, S. E.; Chassang, A.; Gatta...

  • 知识蒸馏-简单

    参考文献: https://github.com/DA-southampton/NLP_ability/blob/...

网友评论

      本文标题:知识蒸馏的T

      本文链接:https://www.haomeiwen.com/subject/kodykktx.html