Distilling the Knowledge in a Ne

Distilling the Knowledge in a Ne

作者: 信步闲庭v | 来源:发表于2017-10-18 21:18 被阅读63次

Distilling the Knowledge in a Ne
Distilling the Knowledge in a Ne
Distilling the Knowledge in a Ne
[Deep Learning] 神经网络知识蒸馏
知识蒸馏-Distilling the knowledge in
论文阅读_神经网络知识蒸馏_DK
语义召回模型-TwinBert
给Bert加速吧！NLP中的知识蒸馏论文 Distilled B
论文阅读_知识蒸馏_Distilling_BERT
深度学习 | 训练网络trick——知识蒸馏

Approach

训练和部署阶段采用不同的模型形态，可以类比于自然界中很多昆虫有多种形态以适应不同阶段的需求。具体地，如蝴蝶在幼虫以蛹的形式存储能量和营养来更好的发育，但是到了后期就为了更好的繁殖和移动它就呈现了另外一种完全不一样的形态。这种方法可以称为知识蒸馏，又叫孪生网络。

所谓模型蒸馏就是将训练好的复杂模型推广能力“知识”迁移到一个结构更为简单的网络中。或者通过简单的网络去学习复杂模型中“知识”。大致可以分为两个阶段：

原始模型训练：

根据提出的目标问题，设计一个或多个复杂网络（N1，N2,…,Nt）。
收集足够的训练数据，按照常规CNN模型训练流程，并行的训练1中的多个网络得到。得到（M1,M2,…,Mt）

精简模型训练：

根据（N1，N2,…,Nt）设计一个简单网络N0。
收集简单模型训练数据，此处的训练数据可以是训练原始网络的有标签数据，也可以是额外的无标签数据。
将2中收集到的样本输入原始模型（M1,M2,…,Mt），修改原始模型softmax层中温度参数T为一个较大值如T=20。每一个样本在每个原始模型可以得到其最终的分类概率向量，选取其中概率至最大即为该模型对于当前样本的判定结果。对于t个原始模型就可以t概率向量。然后对t概率向量求取均值作为当前样本最后的概率输出向量，记为soft_target，保存。

标签融合2中收集到的数据定义为hard_target，有标签数据的hard_target取值为其标签值1，无标签数据hard_taret取值为0。Target = ahard_target + bsoft_target（a+b=1）。Target最终作为训练数据的标签去训练精简模型。参数a，b是用于控制标签融合权重的。
设置精简模型softmax层温度参数与原始复杂模型产生Soft-target时所采用的温度，按照常规模型训练精简网络模型。
部署时将精简模型中的softmax温度参数重置为1，即采用最原始的softmax

Experiment

Mnist

Speech Recognition

References：
https://zhuanlan.zhihu.com/p/24337627

相关文章

Distilling the Knowledge in a Ne
1. 介绍在论文中，作者提出了先训练一个大的笨重的模型，再使用distilling来将笨重的模型的知识迁移到小的...
Distilling the Knowledge in a Ne
Approach 训练和部署阶段采用不同的模型形态，可以类比于自然界中很多昆虫有多种形态以适应不同阶段的需求。具体...
Distilling the Knowledge in a Ne
贡献提出知识蒸馏（Knowledge Distillation）方法，从大模型中学习到的知识中学习有用信息...
[Deep Learning] 神经网络知识蒸馏
参考资料 Distilling the Knowledge in a Neural Networkhttps://...
知识蒸馏-Distilling the knowledge in
知识蒸馏-Distilling the knowledge in a neural network 作者：支广达 ...
论文阅读_神经网络知识蒸馏_DK
英文题目：Distilling the Knowledge in a Neural Network中文题目：神经网...
语义召回模型-TwinBert
Microsoft在2020年提出了TwinBERT: Distilling Knowledge to Twin-...
给Bert加速吧！NLP中的知识蒸馏论文 Distilled B
论文题目：Distilling Task-Specific Knowledge from BERT into Si...
论文阅读_知识蒸馏_Distilling_BERT
英文题目：Distilling Task-Specific Knowledge from BERT into Si...
深度学习 | 训练网络trick——知识蒸馏
1.原理介绍知识蒸馏论文地址 Hinton的文章《Distilling the Knowledge in a N...

网友评论

本文标题：Distilling the Knowledge in a Ne

本文链接：https://www.haomeiwen.com/subject/rutyuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Distilling the Knowledge in a Ne|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！