BERT 有两个自然语言处理任务的预训练:
- Masked Language Modeling
- Next Sentence Prediction
1. Next Sentence Prediction
Masked Language Model 是为了理解词之间的关系,Next Sentence Prediction 是用来理解句子之间的关系。
给定两个句子,句 A 和 B,B 是 A 的下一个句子,还是随机的句子?例如:假设有一个包含 10 万个句子的文本数据集,即 5 万个句子对作为训练数据。
-
其中 50% 的句子对的第二句是第一句的下一句。
-
剩余50%的句子对的第二句是从语料库中随机抽取。
第一种情况的标签为:IsNext
;第二种情况的标签为:NotNext
。比如:
Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
Lable = IsNext
Input = [CLS] the man went to [MASK] store [SEP] penguin [MASK] are flight ##less birds [SEP]
Lable = NotNext
我们对于 NotNext
的句子的选择时完全随机的,并且最终预训练模型在这个任务中会达到 97%-98% 的准确率。
网友评论