关于实体链接(Entity-Linking)任务的调研。
1. 简介:
实体链接是指将自然语言文本中出现的实体提及(entity mention)关联到对应知识图谱实体上去的任务,如标准数据库,知识库,地名词典,维基百科页面等中的对应条目进行链接。
2. 主要的方法,三个模块:
- 候选实体生成(candidate entity generation)模块,负责从输入文本中检测出实体提及集合M(包括输入文本中提到的所有实体),并从给定知识图谱中找到每个实体提及可能对应的候选实体集合,常用的候选实体生成方法包括词典匹配方法、表层形式扩展法和统计模型法;
- 实体消歧模块,负责对每个实体提及m对应的候选实体集合中多个候选实体打分和排序,并输出得分最高的候选实体作为m的实体链接结果。常用的候选实体排序方法包括基于监督学习的方法和基于非监督学习的方法
- 无链接指代预测(unlinkable mention prediction),负责预测输入文本中哪些实体提及是无法被链接到知识图谱中去的。这种情况通常是由知识图谱本身的不完备性导致的,即输入文本中提及的实体尚未被现有知识图谱覆盖(在知识图谱中找不到对应的实体)。
3. 实现流程:
- 命名实体识别
- 候选实体生成
- 实体消歧
- 未发现实体聚类
4. 候选实体生成
4.1. 词典匹配方法:
- 匹配词典抽取方法,首先需要构建抽取<实体提及,知识图谱实体>对词典,最常见的匹配词典抽取方法是利用维基百科网站中实体标题、重定向页、消歧页、加粗短语以及超链接之间的内在连接抽取<实体提及,知识图谱实体>。
- 下表给出基于不同类型数据进行词典构建的具体方法。由于维基百科和包括Freebase 在内的很多其他知识图谱都存在很好的对应关系,因此通过上述方法获取的词典能够很好地用于基于其他知识图谱的实体链接任务。
- 构建好匹配词典后,基于匹配词典对输入文本进行实体提及识别的方式主要有两种:
1)第一种采用完全匹配(exact match)方法,即文本中每个实体提及一定要准确出现在匹配词典中。完全匹配方法易于实现,但对词典实体提及集合的覆盖度要求较高。一旦某个实体提及发生变化,匹配过程就会失败。
2)第二种采用模糊匹配(fuzzy match)方法,即允许文本中每个实体提及和词典中对应的实体提及在字面上存在一定的差异。常见的模糊匹配机制包括:
- 如果文本中某个实体提及被词典中某个实体提及完全包含或它完全包含词典中某个实体提及,那么这两个实体提及模糊匹配成功;
- 如里文本中某个实体提及和词典中某个实体提及存在一定程度的单词重叠,那么这两个实体提及模糊匹配成功;
- 如果文本中某个实体提及和词典中某个实体提及基于字符串相似度算法(例如 character Dice score,skip bigram Dice score,Hamming distance,编辑距离等)具有很高的相似性,那么这两个实体提及模糊匹配成功
4.2. 统计学习方法(即命名实体识别)
- 词典匹配方法采用预先抽取好的实体提及集合对输入文本进行实体提及检测。一旦某些实体提及并未出现在匹配词典抽取的语料中,那么该类方法就无法处理。
- 通过从标注数据上抽取特征学习统计模型,可以用来检测之前并未见过的实体提及(具有较好的泛化性)——命名实体识别任务。
5. 实体消歧(候选实体排序)
5.1. 监督学习方法:
监督学习方法使用的特征分为上下文无关特征和上下文相关特征两大类。
- 上下文无关特征(context-independent feature)仅基于实体提及和候选实体本身对不同候选实体进行打分和排序。常用的上下文无关特征包括:
- 实体提及和候选实体的名称是否完全匹配;
- 实体提及(或候选实体)是否以候选实体(或实体提及)作为前缀或后缀;
- 实体提及(或候选实体)是否完全包含候选实体(或实体提及);
- 实体提及所包含单词的首字母序列是否和候选实体所包含首字母序列相同;
- 实体提及和候选实体共同包含的单词数目;
- 候选实体流行度特征,表示实体提及m链接到候选实体 的先验概率
- 实体提及和候选实体之间的类型匹配特征。该特征对比实体提及的NER 类型(例如 People,Location、Organization 等)与候选实体在知识图谱中的类型是否一致。
- 上下文相关特征(context-dependent feature)基于实体提及和候选实体所在上下文之间的相关度对不同候选实体进行打分和排序。常用的上下文相关特征包括:
- 词袋特征,通过将实体提及和候选实体分别表示为向量形式,计算二者之间的相似性。实体提及向量等于该实体提及所在上下文对应的词袋向量表示。 候选实体向量根据实体的来源不同,生成的方式也不同:对于来自维基百科的候选实体,该向量等于该实体维基百科页面对应的词袋向量表示;对于来自知识图谱的候选实体,该向量等于与该实体直接相连的知识图谱实体和谓词对应的词袋向量表示。
- 概念向量特征,专门针对基于维基百科的实体链接任务。对于每个候选实体,基于该实体维基百科页面中的重定向、锚文本、关键词、InfoBox 等信息生成一个概念向量,并计算其与实体提及上下文对应词袋向量之间的相似度。
- 基于上述特征可以利用多种机器学习算法,训练候选实体排序模型。基于朴素贝叶斯、最大熵或支持向量机可以训练二分类器,用来决定实体提及m和候选实体e间是否存在链接关系。
5.2 无监督学习算法:
为了减少实体链接系统对标注数据的需求,可以将无监督学习方法用于候选实体排序任务。常用的方法包括基于向量空间模型的方法和基于信息检索的方法。
- 基于向量空间模型的方法首先将实体提及m和m对应的某个候选实体分别转化为向量表示。然后,通过计算这两个向量表示之间的距离对不同候选实体进行排序。实体提及和候选实体的不同向量表示生成方法对应了不同的工作。
- 基于信息检索的方法将每个知识图谱实体对应的维基百科文档作为该实体的表示,并基于该类文档对全部知识图谱实体建立索引。给定输入文本中的一个实体提及m,该类方法首先从输入文本中找到包含m的全部句子集合,并通过去停用词等过滤操作生成一个查询语句。然后,使用该查询语句从知识图谱实体对应的索引中查找得到相关性最高的知识图谱实体,作为m的实体链接结果。
- 无监督学习方法通常适用于长文本实体链接任务,这是由于短文本无法很好地生成实体提及对应的向量表示或查询语句。
6. 无链接提及预测:
由于知识图谱的不完备性,并不是每个实体提及在知识图谱中都能够找到对应的实体。对于这类实体提及,实体链接系统通常将其链接到一个特殊的“空实体(用符号 NIL 表示)”上去,该任务就是无链接提及预测(unlinkable mention prediction).
无链接提及预测任务常用的策略有三种:
- 如果一个实体提及对应的候选实体生成结果是空集,那么该实体提及的链接结果是NIL;
- 如果一个实体提及对应排名最高的候选实体得分低于一个预先设定的阈值,那么该实体提及的链接结果是 NIL.这里用到的阈值通常根据系统在标注数据上的表现进行预设;
- 给定一个实体提及及其对应排名最高的候选实体,使用二分类器对其进行分类。如果分类结果是1,则返回候选实体作为实体链接结果。否则,该实体提及的链接结果是 NIL. 此外,也可以将NIL 作为一个特殊的实体直接加到每个实体提及对应的候选实体集合中进行打分和排序。
7. 总结:
实体链接任务对智能问答系统而言非常重要。成功识别问题中提到的知识图谱实体不仅有助于问答系统对问题的理解、辅助问答系统完成对问题和答案类型的判断,还能将该实体作为桥梁从知识图谱中找到更多的相关信息帮助答案排序或答案生成任务。
在智能问答场景中,由于真实问题的长度通常较短、知识图谱内容不完备、实体链接对应标注数据集有限等原因,实体链接任务目前依然存在许多问题和挑战。未来的研究需要更大规模和更高覆盖度的标注数据,用于训练更加鲁棒(robust)的实体链接系统。此外,实体链接任务需要和智能问答系统进行整合,进行端到端的训练,这样有助于避免子模块可能产生的错误传递问题。
参考:
知识图谱问答:实体链接概述
网友评论