bert 模型压缩原理

bert 模型压缩原理

作者: 小小兰哈哈 | 来源:发表于2021-10-08 22:12 被阅读0次

bert 模型压缩原理
BERT 模型蒸馏 TinyBERT
[NLP] BERT模型压缩
Bert使用随笔
NLP必读 | 十分钟读懂谷歌BERT模型
transformers中的bert用法
如何将Bert句向量应用于深度神经网络中
AI产品经理基础（五）-NLP领军模型BERT
Bert模型_3分钟热情学NLP第11篇
BERT 模型

1. 压缩目的:

在基本不影响模型效果的基础上,对bert模型进行同构压缩，将layer 与embedding size减少，尽可能提升模型的性能。

比较经典的压缩尺寸是 12 * 768 -> 6 * 384

下面以classifier task为例子，讲一下bert模型压缩的原理和实现.

classifier task的model的结构：

BERT --> MLP -->cross_entropy_loss

2. 基本概念

teacher model: 尺寸较大的模型， finetune model

student model: 尺寸较小的模型，target model

3. distillation loss的设计

distillation可以分为两步。第一步，使用classifier task的label 训练teacher model，如果要做的精确一点，可同时训练student model的classifier 以及teacher的sequence attention 的logits和student 的sequence attention logits做交叉熵.

loss1 -> grad -> loss2 -> grad -> loss3->grad

第二步，将teacher model 的 parameters 做冻结，detach(), 使用MSE Loss的方式修正student model的Mlp logits的结果

总结：第一步，主要实现teacher model的finetune和提高student的BERT layer与teacher BERT layer的sequence结果相关性

第二步：实现student MLP logits 与teacher MLP logits 的相关性.

实验证明可以基本实现在效果减小很少的情况下，性能有很大提升。

第一步的具体的流程可表示为:

1. teacher_sequence = teacher_sequence.detach() 做梯度冻结

teacher_attention = torch.matmul(teacher_sequence , teacher_sequence.permute(0,2,1))

input_mask = torch.unsqueeze(input_mask, 0) * torch.unsqueeze(input_mask, 1)

将input_mask 也变成batch size * sequence * sequence的序列组合的形式.

teacher_att = torch.log_softmax(teacher_attention) * input_mask [使用input_mask将原序列中需要编码忽略的部分置0，必要的时候softmax前可以将相应的mask掉的部分的值调低)

对student_sequence 采用同样的操作.

att_loss = teacher_att * torch.log(student_att)/(torch.sum(input_mask))

第二步的具体流程可表示为:

teacher_logits = teacher_logits.detach()

mse_loss = nn.MSE()(student_logits, teacher_logits)

相关文章

bert 模型压缩原理
1. 压缩目的: 在基本不影响模型效果的基础上,对bert模型进行同构压缩，将layer 与embedding s...
BERT 模型蒸馏 TinyBERT
BERT 的效果好，但是模型太大且速度慢，因此需要有一些模型压缩的方法。TinyBERT 是一种对 BERT 压缩...
[NLP] BERT模型压缩
BERT模型压缩大致分为以下几类：（参考：http://mitchgordon.me/machine/learni...
Bert使用随笔
Bert使用使用Bert模型其中bert_config是BertConfig类，bert内部是从json配置文...
NLP必读 | 十分钟读懂谷歌BERT模型
目录一、前言二、如何理解BERT模型三、BERT模型解析 1、论文的主要贡献2、模型架构3、关键创新3、实验...
transformers中的bert用法
1. Bert模型下载这里直接使用huggingface提供的pre-trained的bert模型，直接去官网即...
如何将Bert句向量应用于深度神经网络中
Bert开源了预训练的中文模型,如果你想直接使用Bert模型生成句子向量(当做一个黑盒),并用于深度学习模型中,本...
AI产品经理基础（五）-NLP领军模型BERT
什么是BERT BERT是谷歌最新提出的语言模型，在处理NLP的各项任务上，这个通用模型基本完爆所有模型。可以说是...
Bert模型_3分钟热情学NLP第11篇
3分钟热情学NLP第11篇，Bert模型 BERT ：Bidirectional Encoder Represen...
BERT 模型
1、BERT 结构图如图： 2、官方论文 https://arxiv.org/pdf/1810.04805.pdf

网友评论

本文标题：bert 模型压缩原理

本文链接：https://www.haomeiwen.com/subject/fclfoltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|bert 模型压缩原理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！