作者:刘嶠, 李杨 等
单位:电子科技大学
年份:2014
“知识图谱的概念是由谷歌公司提出的,2012年5月17日,谷歌发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。该项目始于2010年谷歌收购Metaweb公司,并借此获得了该公司的语义搜索核心技术,其中的关键技术包括从互联网的网页中抽取出实体及其属性信息,以及实体间的智能问答问题,由此创作出一种全新的信息检索模式。”
“知识图谱:是结构化的语义知识库,用于以符号的形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。”
"从逻辑上将知识图谱划分为2个层次:数据层和模式层。"
Paste_Image.png
“知识图谱有自顶向下和自底向上2种构建方式。”
自底向上的构建方式包括3个步骤:1 信息抽取, 2 知识融合, 3 知识加工。
信息抽取主要包括:1 实体抽取(NER),2 关系抽取, 3 属性抽取。
“当前流行的OpenIE系统在关系抽取方面存在2个主要问题:1 当前研究的重点是如何提高二元实体关系(三元组模式)的抽取准确率和召回率,很少考虑到在现实生活中普遍存在的高阶多元实体关系;2 所采用的研究方法大多只是关注发掘词汇或者词组之间的关系模式,而无法实现对隐含语义关系的抽取。
“知识融合包括2部分内容:实体链接和知识合并。通过知识融合,可以消除概念的歧义,剔除冗余和错误的概念,从而确保知识的质量。/ 实体链接是指对于文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。”
"根据W3C的调查报告,当前已经出现了大量RDB2RDF的开源工具:如 Triplify, D2R Server, OpenLink , Virtuoso, SparqlMap 等。然而由于缺少标准规范,使得这些工具的推广应用受到极大的制约。为此,W3C于2012年推出了2中映射语言标准:Direct Mapping(A direct mapping of relational data to RDF) 和 R2RMl (RDB to RDF mapping language)."
"除了关系型数据库之外,还有许多以半结构化方式存储(如 XML,CSV,JSON等格式)的历史数据也是高质量的知识来源,同样采用RDF数据模型将其合并到知识图谱当中。当前已经有许多这样的工具软件,例如XSPARQL支持从XML格式转化为RDF,Datalift支持从XML和CSV格式转化为RDF。"
“数据驱动的自动化本体构建过程包含3个阶段:实体并列关系相似度计算,实体上下位关系抽取以及本体的生成”
跨语言知识图谱的构建。
“互联网正从包含网页和网页之间的超链接文档万维网转变成包含大量描述各种实体和实体之间丰富关系的数据万维网。知识图谱作为下一代智能搜索的核心关键技术,具有重要的理论研究价值和现实的实际应用价值。”
网友评论