对于三元组数据<head,relation,tail>,论文 Translating Embeddings for Modeling Multi-relational Data 中为了获得实体 和 关系的低维向量表示,采取的建模方式很直观,如下图1所示:
图1其目标函数是很常见的 margin-based ranking criterion
这对知识推断是很有用的。
VTransE 是用来进行视觉关系检测的模型,在论文 Visual Translation Embedding Network for Visual Relation Detection 中被提出,这对目前主要基于CNN+LSTM+Attention框架的image caption 和 VQA 来说,对产生合乎逻辑,可推理的结果来说,应该会有帮助。 图2示出了 Visual relation detection 的所处位置
图2其思想类似于TransE, 其训练数据集为VG 和 VRD ,每张训练图片有几组 <subject , predicate, object >三元组, 每个 subject 和 object有bounding box 标出。整个框架如图3 所示:
图3
网友评论