BioNER-Progress

作者: 小小程序员一枚 | 来源:发表于2020-11-16 21:13 被阅读0次

BioNER-Progress

生物医学命名实体识别的进展：
https://github.com/lingluodlut/BioNER-Progress

数据集的介绍

Disease NER
- NCBI-Disease
  NCBI这个数据集包含793篇PubMed（PubMed文献数据库包含超过240万生物医学文献）摘要，它包含了总共6892个疾病实体提及
Gene/Protein NER
- BC2GM
  基因提到标记任务是生物创新II挑战的一部分，它涉及到基因命名实体的提取，以及在文本中提到的基因产品。BC2GM语料库中共有24583个基因实体被提及。
- JNLPBA
  JNLPBA语料库包含从MEDLINE中提取的2404个摘要，使用“人”、“血细胞”、“转录因子”这3个MeSH本体，即蛋白质、DNA、RNA、细胞系、细胞类型。该语料库用于BioNLP/NLPBA 2004 中的生物实体识别任务，提供2000份摘要供培训，其余404份用于测试。
Species NER
- LINNAEUS
  一组文本格式的开放访问文档，用于物种提及标记的手动注释。它包含了100个来自PMC OA文档的全文文档，其中包含了总共4259个物种实体提及

2.BioBERT论文阅读
问题：由于BERT在NLP领域的成功，使得很多学者想将其迁移到生物医学，但存在领域适应的问题，于是催生了BioBERT预训练语言模型的发展，BioBERT是在大量生物医学文献上进行预训练得到的一个语言模型，事实证明，它在生物医学领域的很多项任务（NER、RE、QA）上都取得了比bert更好的性能。
模型：

为了提高计算效率，作者先用在通用领域上预训练的BERT模型的权重去初始化BioBERT
数据集：

在NER任务上的结果：

网友评论

本文标题：BioNER-Progress

本文链接：https://www.haomeiwen.com/subject/ffyzbktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

BioNER-Progress

相关文章

BioNER-Progress

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读