[论文阅读]Reading and Reasoning with

作者: 吐舌小狗 | 来源:发表于2018-03-27 16:58 被阅读68次

[论文阅读]Reading and Reasoning with
FiLM论文解读
第一个专栏，写在之前
网址大全【技术知识类】
人体姿态估计图推理网络GRR-GCN论文阅读理解
论文阅读-ESTER: A Machine Reading Co
阅读理解R-NET 实践
《How To Read A Book》全浸阅读(7)-用一本书
论文阅读分享--OCR--Reading Scene Text
《How To Read A Book》全浸阅读(8)-用一本书

这是一篇博士的毕业论文，作者来自CMU

知识库的应用

search engines now use them to enrich search results with structured information
many question answering systems convert a question into some kind of query against a knowledge base
information extraction systems will often use a knowledge base as their main source of training data

问题

研究的第一问题：知识库补全或者知识库推断（补充实体），即根据已经有的事实去推断缺少的事实
方法一：使用逻辑推理去预测确实的事实；
方法二：使用向量的方法推断新的事实；
基于向量的方法进行推理时，更准确，推理能力更强大，但是存在大量的谓词和事实时进行推理很可能崩溃

研究的第二个问题：预测知识库重点额谓语，即实体之间的关系
预测关系难度较大，因为知识库中编码所有的谓语是不可能的
解决的方法一：开放式信息抽取（open information extraction)，即试图从上下文，自然语言的描述中得到谓词的向量空间，而不是定义一个谓词的向量，去填充这个知识库。
难点：如果没有预处理，推理十分困难

研究方法

针对上面的来年两个问题，该论文提出的解决方法是：
1.基于路径排序算法: 该算法将知识库视为图，然后在图上执行随机游走，以查找可能存在的新的实例或者关系。
这种方法类似与霍恩子句，基于逻辑推理，可以根据关系组合去预测新的事实。缺点是：路径十分大并且稀疏，缺乏利用谓语之间的相似性来减少特征空间的机制

针对存在的问题，作者提出了三种方法来改进：
前两种方法：利用向量的表示法，好处： This technique allows PRA to overcome the sparisity inherent in very large predicate spaces with a lot of synonymy。
第三种方法：简化路径排序算法，去掉计算复杂度大，作用不是很大的步骤（step）

具体的操作：1）根据广度优先搜索索找到一对结点周围的字符，然后提取子图的特征，这些特征可以用于简单的逻辑回归去预测一对结点之间是否存在一个连边，而不是随机游走计算概率；该方法能够构建更多特征矩阵在较少的时间，从事使得基于知识库的推断十分高效；