美文网首页
知识蒸馏的T

知识蒸馏的T

作者: 一颗大葡萄树 | 来源:发表于2020-07-20 16:32 被阅读0次

    不光是提高准确率,更重要的是要学习大模型的泛化能力。如果Soft-target携带信息过多,就需要用到温度T了,需要T来把重要的信息“蒸馏”出来。具体做法就是用大模型的倒数第二层先除T,再通过softmax预测一个soft-target,小模型也是一样,倒数第二层除同样的温度T,然后softmax预测结果,再使用这个结果作为交叉熵的一部分,另一部分就是ground truth标签和正常输出。Total loss 就是把这两个loss 加权之后合起来作为小模型的最终loss更新模型。预测就不需要温度T了

    相关文章

      网友评论

          本文标题:知识蒸馏的T

          本文链接:https://www.haomeiwen.com/subject/kodykktx.html