美文网首页
BioNER-Progress

BioNER-Progress

作者: 小小程序员一枚 | 来源:发表于2020-11-16 21:13 被阅读0次

生物医学命名实体识别的进展:
https://github.com/lingluodlut/BioNER-Progress

  1. 数据集的介绍
  • Disease NER
    • NCBI-Disease
      NCBI这个数据集包含793篇PubMed(PubMed文献数据库包含超过240万生物医学文献)摘要,它包含了总共6892个疾病实体提及
  • Gene/Protein NER
    • BC2GM
      基因提到标记任务是生物创新II挑战的一部分,它涉及到基因命名实体的提取,以及在文本中提到的基因产品。BC2GM语料库中共有24583个基因实体被提及。
    • JNLPBA
      JNLPBA语料库包含从MEDLINE中提取的2404个摘要,使用“人”、“血细胞”、“转录因子”这3个MeSH本体,即蛋白质、DNA、RNA、细胞系、细胞类型。该语料库用于BioNLP/NLPBA 2004 中的生物实体识别任务,提供2000份摘要供培训,其余404份用于测试。
  • Species NER
    • LINNAEUS
      一组文本格式的开放访问文档,用于物种提及标记的手动注释。它包含了100个来自PMC OA文档的全文文档,其中包含了总共4259个物种实体提及

2.BioBERT论文阅读
问题:由于BERT在NLP领域的成功,使得很多学者想将其迁移到生物医学,但存在领域适应的问题,于是催生了BioBERT预训练语言模型的发展,BioBERT是在大量生物医学文献上进行预训练得到的一个语言模型,事实证明,它在生物医学领域的很多项任务(NER、RE、QA)上都取得了比bert更好的性能。
模型

  • 为了提高计算效率,作者先用在通用领域上预训练的BERT模型的权重去初始化BioBERT
    数据集

    在NER任务上的结果

相关文章

  • BioNER-Progress

    生物医学命名实体识别的进展:https://github.com/lingluodlut/BioNER-Progr...

网友评论

      本文标题:BioNER-Progress

      本文链接:https://www.haomeiwen.com/subject/ffyzbktx.html