一、写在前面的话
1. 论文领域
生物医学领域的预训练
2. 论文主要解决的问题
-
如何检索(挖掘)生物医学领域知识
-
如何在模型预训练中利用生物医学领域的知识
3. 论文的主要创新和贡献
-
整理和贡献了生物医疗领域的测评数据集:https://github.com/alibaba-research/ChineseBLUE
-
提出了一种针对生物医学领域的预训练方法
二、论文摘要翻译
随着生物医学领域的文档和web数据数量的飞速增长,生物医学领域的数据挖掘变得愈发重要。尽管诸如BERT的表示模型在研究领域已经取得了不错的效果,但是由于一般语料库和生物医学语料库的词分布有很大不同,所以简单地将它们直接迁移到生物医学领域的效果往往很难满足预期。此外,医学领域通常有较多的长尾概念和难以通过语言模型学习的术语。生物医学领域的文本内容和结构的复杂性,导致该领域的数据挖掘工作相比于一般的数据挖掘更具有挑战性。在本文中,我们探讨了如何将预训练语言模型BERT用于中文生物医学语料库,提出了一种新的概念化表示学习方法。此外,我们还发布了新的中文生物医学语言理解评估基准(ChineseBLUE),用于评估BERT、BERT-wwm、RoBERTa和在本文中提到的方法的效果。基准测试的实验结果表明,本文所提出的方法可以获得显著的增益。我们在GitHub上发布预训练的模型:https://github.com/alibaba-research/ChineseBLUE
三、论文模型

1. Whole Entity Masking
将BERT中的随机MASK换成MASK生物医疗领域的实体例如“腹痛”,生物医疗领域的实体的获取和链接主要通过知识图谱和命名实体
2. Whole Span Masking
除了对实体进行MASK之外,还对生物医疗领域的短语进行MASK,例如“肚子有一点疼”、“腹部一阵一阵痛”等。生物医疗领域的短语通过Autophrase和Alibaba Congitive Concept Graph获取,此外会使用一个二分类的模型(fasttext)用来识别是否真的是生物医疗领域的短语
3. Next Sentence Prediction
和BERT一样,会做随机将下文进行替换。后期研究表明这一任务在BERT预训练中没有什么效果(因为任务过于简单),不知道在生物医疗领域是否需要。
4. Further Pretraining in Biomedical Domain
MC-BERT并不是从零训练的,而是在BERT的基础上进行训练,其中:学习率设置为1e-5、seps:100K、maximum length:512。此外,论文提到在BERT基础上进行预训练时不要使用learning rate warmup
5. 训练流程图

四、论文实验
1. 实验数据集

主要来自神马搜索和一些公开数据集:https://github.com/alibaba-research/ChineseBLUE
2. 论文所使用的参数信息
MC-BERT层数、注意力头数等和BERT设置相同(12 layers, 12 self-attention heads, and 768-dimensional of hidden size;Large model: 24 layers, 16 self-attention heads, and 1024-dimensional of hidden size)
3. 对比结果

可以看出在生物医学领域的测评任务上,MC-BERT都有提升(虽然没提升才是奇怪的事情,毕竟是在BERT的基础上又在相关领域做预训练,就是不知道从零训练结果会怎么样)

另外,论文在NER任务上做了消融实验,其中w/o entity是移除Whole Entity Masking,w/o span是移除Whole Span Masking,可以看到去除Whole Entity Masking和Whole Span Masking都会对效果产生影响,但Whole Span Masking似乎影响很大,去掉之后模型效果仅比BERT好一点,也就是说可能单纯的生物医疗实体词的Mask无法使模型学到这个词后面的知识,个人感觉可能和论文使用的实体词的多少和颗粒程度有关系,但从结果上看,Whole Entity Masking可能对模型仅仅起到了word Mask的作用,所以移除Whole Span Masking之后比BERT-wwm这个word Mask的预训练模型差很多
五、模型下载
论文提供了下载地址,但因为是在谷歌云上,所以下载速度不太行,所以转存了一份在百度云上。另外,论文只提供了Tensorflow的模型权值,个人实验多用Pytorch,故使用拍拍脸的代码转化成了Pytorch的
Tensorflow 权值下载:链接:https://pan.baidu.com/s/1LMkWJnQnfXUt2iL4b8v5hw 提取码:5njc
Pytorch 权值下载:链接:https://pan.baidu.com/s/1-jlg8RicjRBa_W5F9qzSbw 提取码:lawg
网友评论