FB15k数据:实体的出度和入度呈现幂律分布,说明图谱中三元组包含的信息量倾斜较严重,只有少部分出现频率高的实体在训练中起到了关键作用,而其他大量的实体在训练中的作用较小,导致比较严重的数据稀疏性。
任意两个实体之间均均在一条较短的路径,平均最短路径长度大约为3。
训练过程中融入高阶结构信息,则可以有效地缓解数据稀疏问题,且能够得到更准确的实体和关系在空间中的向量表示。
另外,在语义网络中存在许多频繁出现的子图结构,比较常见的是2、3、4点子图结构。
高阶的子图结构不仅包含实体之间的关联信息,还包括了关系之间的关联信息。知识图谱中的三元组结构可以看作是 2 点子图结构,且三元组中仅包含单个关系, 若希望学得不同关系之间的关联,往往需要更高阶的子图结构。3 点子图是最常见的且 比较简单的高阶子图结构。由于任意两个实体之间的平均最短路径大约为 3,因此考虑 知识图谱中存在的 4 点子图结构更能捕捉实体之间、实体和关系之间以及关系之间的关 联。可以认为高阶的子图结构具有更稠密的数据量以及更丰富的信息。虽然这样的子图 结构并不能包含知识图谱中所有的知识,但是在一定程度上表达出了更加丰富的结构特 征。
简单起见,本文选择了最简单的子图结构,即关系指向一致 的 3 点子图结构和 4 点子图结构。并且选择了最符合三元组中向量之间的翻译假设的加 法来对多个关系向量进行结合。如图 4.2 所示,对于子图(a),其约束为 ri ij j += ee 。对于 子图(b),除了约束 ri ij j += ee,还额外增加了约束 ri ix x += ee 和 xx r jj += ee。而对于子图 (c),除了约束 ri ij j += ee,还额外增加了约束 ri ix x += ee 、 x xy y r += ee 和 yy r jj
网友评论