[NLP] ALBERT - 更轻量的BERT模型

[NLP] ALBERT - 更轻量的BERT模型

作者: nlpming | 来源:发表于2022-01-07 00:29 被阅读0次

[NLP] ALBERT - 更轻量的BERT模型
Bert代码跑albert报错
Google 自然语言处理（NLP）最新预训练模型 ALBERT
Bert模型_3分钟热情学NLP第11篇
轻量级BERT模型ALBERT
AI产品经理基础（五）-NLP领军模型BERT
BERT 模型蒸馏 Distillation BERT
彻底理解 Google BERT 模型
Bert预训练模型
深度语言模型-AlBert

1. 简介

一般来说，增加模型的参数量能够提升最终的效果。但是由于机器GPU/TPU资源的限制模型参数量不可能无限制的增加。ALBERT模型主要解决的问题是：减小模型的参数，使得模型获得和BERT同样的效果甚至更优。 最终模型的训练速度和推理速度并没有明显的提升反而降低了些，所以论文最终作者提到在这两方面还需要改进。

ALBERT、BERT模型参数数量对比.png

ALBERT、BERT验证集效果对比.png

2. ALBERT改进之处

ALBERT和BERT模型采用了相同的结构，主要的改进之处在三个方面：

2.1 Factorized embedding parameterization

很多BERT相关的模型比如RoBERT,XLNET等，将词表emb size的大小 $E$ 和网络中hidden size的大小 $H$ ，设置的是一样的。这样embedding层的网络参数数量为： $V \times H$ ，为了减小embedding层网络参数ALBERT中将 $E$ 和 $H$ 设置的不一样，通常来说 $E$ 不能设置的太大，而应该将 $H$ 设置的比较大。最终embedding层的参数数量从 $O(V \times H)$ 减小到 $O(V \times E + E \times H)$ ，当 $H$ 的大小远大于 $E$ 的时候，参数数量减小更加明显。

2.2 Cross-layer parameter sharing

将transformer不同层之间的参数进行共享，常见的比如共享feed forward层参数或者attention层的参数，或者全部参数都共享。ALBERT默认采用的是共享所有的参数。并且论文中实验显示，通过不同层的参数共享模型的稳定性更好。

参数共享作用.png

2.3 Inter-sentence coherence loss

我们知道原始BERT模型中使用了两个loss：MLM loss和NSP loss。很多其他实现都显示NSP（Next Sentence Prediction）任务起到的作用并不是那么大，因此ALBERT将NSP任务换成了SOP（Sentence Order Prediction）。NSP和SOP任务都是一个二分类任务，这两个任务的主要区别在于负样本的构造。NSP任务的负样本是，在其他文档中随机采样一个句子，而 SOP任务负样本的构造是将两个句子反过来。NSP任务能够学习到句子之间的主题相似性，而SOP任务能够学习到句子之间的语义连贯性，这种关系的学习更加的困难。

参考论文

ALBERT模型论文及代码
https://paperswithcode.com/paper/albert-a-lite-bert-for-self-supervised
[SentencePiece论文] SentencePiece: A simple and language independent subword tokenizer
and detokenizer for Neural Text Processing
https://aclanthology.org/D18-2012.pdf

参考资料

官方tensorflow代码
https://github.com/google-research/ALBERT
中文预训练ALBERT
https://github.com/brightmart/albert_zh
ALBERT 论文解读
https://zhuanlan.zhihu.com/p/88099919
BERT 的优秀变体：ALBERT 论文图解介绍
https://www.6aiq.com/article/1589833968655

相关文章

[NLP] ALBERT - 更轻量的BERT模型
1. 简介一般来说，增加模型的参数量能够提升最终的效果。但是由于机器GPU/TPU资源的限制模型参数量不可能无限...
Bert代码跑albert报错
用bert的fine-tune代码跑albert模型，结果报错： Shape of variable bert/e...
Google 自然语言处理（NLP）最新预训练模型 ALBERT
模型来自论文 Google 最近公布的论文《ALBERT: A LITE BERT FOR SELF-SUP...
Bert模型_3分钟热情学NLP第11篇
3分钟热情学NLP第11篇，Bert模型 BERT ：Bidirectional Encoder Represen...
轻量级BERT模型ALBERT
BERT有很多改进版本，ALBERT是一个轻量化版本。ALBERT源自2020年的发表论文《ALBERT: A L...
AI产品经理基础（五）-NLP领军模型BERT
什么是BERT BERT是谷歌最新提出的语言模型，在处理NLP的各项任务上，这个通用模型基本完爆所有模型。可以说是...
BERT 模型蒸馏 Distillation BERT
BERT 在很多 NLP 任务上都取得不错的效果，但是其模型体积与计算量都很大，而且现在出现了更多越来越大的模型，...
彻底理解 Google BERT 模型
BERT 模型是 Google 在 2018 年提出的一种 NLP 模型，成为最近几年 NLP 领域最具有突破性的...
Bert预训练模型
NLP预训练模型简介旺达一、BERT简单文本分类实例 1、bert详细运行介绍--tensorflow htt...
深度语言模型-AlBert
Google在2020年提出了AlBert模型。模型是对Bert的改进，效果肯定要好，不然怎么是改进呢，貌似说的是...

网友评论

本文标题：[NLP] ALBERT - 更轻量的BERT模型

本文链接：https://www.haomeiwen.com/subject/dzcrcrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|[NLP] ALBERT - 更轻量的BERT模型|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！