论文阅读“TaCL: Improving BERT Pre-tr

论文阅读“TaCL: Improving BERT Pre-tr

作者: 掉了西红柿皮_Kee | 来源:发表于2023-05-10 22:04 被阅读0次

Su Y, Liu F, Meng Z, et al. TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning[C]//Findings of the Association for Computational Linguistics: NAACL 2022. 2022: 2497-2507.

总述

论文从大规模语言模型的预训练过程的优化角度出发，提出了一种新颖的连续预训练的方法来鼓励BERT等模型可以针对每个token都得到具有各向同性和鉴别性的分布表示。这种训练方法是完全无监督的，并且不需要额外的数据。

模型浅析

本文所提出的模型包含两个模型，一个学生模型

S

和一个教师模型

T

，它们都由相同的预训练权重进行初始化。在学习的过程中，将

T

的参数固定不动，只优化

S

的参数。给定输入序列

x=[x_1, \cdots, x_n]

，随机的mask掉

x

中的一个token，并将mask后的序列

\tilde{x}

输入

S

，用于产生上下文表示

\tilde{h}=[\tilde{h}_1,\cdots,\tilde{h}_n]

。与此同时，使用原始序列

x

输入

T

，得到对应的表示

h=[h_1,\cdots,h_n]

。提出的token级别的对比学习目标定义为：

其中如果

\tilde{x}_i

是被mask的token则

\mathbb{1}(\tilde{x}_i)=1

，否则等于0.

\tau

是温度系数参数，

\text{sim}(\cdot,\cdot)

用于计算两个表示之间的相似度。

S

的目的是将被mask掉的token学的更加接近于

T

中对应的参考表示；而远离同一序列中的其他值。除了对比学习的目标之外，预训练的过程还保留了原始的两个预训练任务MLM和NSP。因此，

S

整体的优化目标为：

通过完整的学习过程，可以继续在

S

模型上进行微调使其适用于下游任务。

实验

实验部分让人影响深刻的是关于两种训练方式的自相关性的可视化结果，其中给定输入序列 $x=[x_1, \cdots, x_n]$ ，其对应的表示序列为 $h=[h_1, \cdots, h_n]$ ，self-similarity的计算方式如下：

其中BERT表示适用原始的两种预训练任务MLM和NSP，TaCL表示适用了添加token级别的对比学习的晕训练过程。可以清楚的看出，提出的方法使得句子中的每个token更加具有各向同性和可辨别性。

相关文章

网友评论

本文标题：论文阅读“TaCL: Improving BERT Pre-tr

本文链接：https://www.haomeiwen.com/subject/zbmjsdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|论文阅读“TaCL: Improving BERT Pre-tr|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！