假设有两种语言L1和L2,L1既有大量无标签数据又有下游任务的监督数据,L2只有大量无标签数据,整个流程可分为一下四步:
- 在L1无标签的数据集上,训练一个单语的bert,任务为masked语言模型(MLM)和 下一句话预测(NSP)
- 冻结第1步训练好的bert中的transformer部分(embedding层和softmax层除外),在L2无标签的数据集上从头开始训练新的bert模型,任务同1
- 使用L1下游任务的监督数据,微调第1步训练好的模型,微调的过程中冻结 embedding层
- 使用第2步得到的embedding层替换第3步的embedding层,得到新的模型,可应用于L2中相同的下游任务
网友评论