硕士论文:基于生物医学词典的实体表示及其应用研究
问题:生物医学领域的命名实体普遍具有模糊性,主要表现在:
1.多样性:也叫同义词或者同一实体多种变体
2.歧义性:也叫一词多义或者不同实体同名
多样性和歧义性的广泛存在使得生物医学实体识别和链接成为具有挑战性的任务。生物医学领域存在丰富的词典,这些词典中包含了大量的实体名信息、实体ID描述文本以及实体结构信息等先验知识,有助于解决实体识别和链接所面临的问题。
基于生物医学词典的实体识别系统:
- 数据预处理阶段:对语料进行噪音过滤(将所有字母转换为小写,并用空格替换特殊符号)、细粒度分词以及标签标注、对数据进行词元分析(即基于词典进行的标准化,还原出每个词的原型)
- 特征抽取阶段:通过生物医学词典抽取了两种词典特征,用于增加实体的提示信息,这两种词典特征分别是:分布式特征和n元特征
- 分布式词典特征:给定句子,若当前匹配子序列出现在词典中,且匹配结构仅是一个词,我们就标记其为“B”;若匹配结果包含多个词,则将匹配结果的第一个词标记为“B”,后面的词标记为“I”;对于S中剩余的未匹配单词,统一标记为“O”。最后,将这些BIO标记通过随机初始化的方式映射为低维的向量表示,获得分布式词典特征表示。
-
n元词典特征:
具体来说:就是根据词w的上下文构造7个文本片段。对于每个文本片段,我们可以生成一个二进制值以指示该文本片段是否在生物医学词典中,最终可以获得一个长度为7的二值特征向量。
模型最终的架构图如下:
基于实体描述文本的生物医学实体链接
-
候选ID生成和候选ID排序:
-
候选ID生成主要有两种方法,分别是词典匹配和API查询。词典匹配就是将实体提及与词典实体进行字符串匹配,得到实体与候选ID的映射列表。API查询是指利用词典提供的API接口对实体提及进行基于关键字的搜索。
-
候选ID排序的核心是相关度得分的计算
基于实体结构信息的生物医学实体链接 -
与前一节基本相同,区别在于候选ID表示的学习方法不同。首先从生物医学词典中抽取实体的结构信息,包括同一实体多种变体和不同实体同名。然后,将其作为向量空间上的约束,采用自动编码机对其进行学习,获得候选ID表示。
-
提出两种基于transformer改进的实体消歧模型,从两方面探究实体ID表示嵌入到神经网络模型的方法。
-
右图将候选ID表示S作为查询Q的输入,K和V仍为上下文词向量序列保持不变。这样做的目的是希望通过计算Q和K的相似性,获得对输入文本其他部分的关注权重,根据这些权重对序列自身V进行加权求和,建模序列内部联系,从而实现候选ID和上下文表示的融合。
网友评论