简书显示文章内容过长无法发布,因此去掉了好多内容,且图片太多。建议大家查看pdf版
注:附 PDF 版下载 https://pan.baidu.com/s/1AnWz0nVas54U8sxrJqW1zA
一、写在前面的话
1.1.1 全文概要
本文旨在通过技术实现流程与产品应用落地系统的介绍知识图谱的构建原理与发展方向,不涉及具体实现代码与算法,结合市面上现有的知识图谱应用做简单分析,错误或不当之处敬请指正。
1.1.2 引言
前谷歌阿米特·辛格(Amit Singhal)博士在介绍知识图谱时如是说:“The World is not made of strings,but is made of things (构成这个世界的不是字符串,而是实体).”
之前写过一篇关于知识图谱的文章:《知识图谱发展的难点&构建行业知识图谱的重要性》在研读大量前辈们的文章著作之后有了更深刻、更具体的认识,遂码此文以此纪念半年来的学习。
1.1.3 知识图谱的重要性
认知科学家斯蒂芬·平克,对写作的本质做过这样一个描述“写作之难,在于把网状的思考,用树状的结构,体现在线性展开的语句里。”后来被很多人引用,任何文章都是由中心、材料、结构三个要素组成,中心是文章的“灵魂”,要明确无误;材料是“血肉”,要丰富,并能集中反应中心;结构则是文章的骨架,是谋篇布局的手段,是运用材料反应中心的方法。知识图谱与人类写文章和思考模式非常相似,就是这样一个网状的存在,它把零乱复杂的人类社会知识通过点、线连接,以结构化的方式组织起来,帮助用户从海量网络数据中获取结构化完整的知识与信息。
人工智能行业大家常说,知识图谱是让人工智能从机器智能,到感知智能,再到认知智能进程中不可或缺的一个领域。因为知识图谱最接近现实世界的数据组织结构,更符合人类的思维模式。
马爸爸之前说,如今的互联网从IT时代已经逐渐过渡到DT时代。人们要用全量数据,阿里也在收购各个类型的公司,帮助阿里获得不同细分行业的数据,为DT时代的到来而布局;就我了解到的信息,知识图谱不光要收集数据、分析数据、更重要的是对数据里的信息进行各种信息的抽取,发现数据之间的各种关系,并对这些关系进行推理,强化数据应用与价值。
1.1.4 重要声明
本文参考和借鉴大量行业先驱的文章,结尾已注明出处并署名,如侵权请联系(Wechat:dandan-sbb)。
二、知识图谱技术构建要点简述
在我看来,不了解产品在技术层面的实现流程及应用边界是做不出来好产品的(参考:《AI产品经理必备10点思维模型》),所以先来整体介绍知识图谱的技术实现流程。
知识图谱的生命周期大致可分为六大板块,按顺序依次为:知识建模、知识获取、知识融合、知识存储、知识计算、知识应用;而这六大板块之又包含很多细节模块,别着急,下面就来拆解介绍。
2.1 知识图谱架构
开始构建知识图谱之前,非常有必要说明一下架构,知识图谱的架构主要分为两种:逻辑架构、和技术架构;
2.1.1 逻辑架构
而 逻辑架构 又分为数据层 和 模式层:
数据层:是逻辑架构的底层,用来存储真实的节点数据与关系数据。
模式层:模式层在数据层之上,存储提炼过的数据,通过本体库 来管理数据关系。
实例说明
模式层:实体-关系-实体, 实体-属性-值
数据层:姚明-妻子-叶莉, 姚明-年龄-38
(Tips 1:本体的核心意思是指一种模型,用于描述由一套对象类型(或者说类)、属性及关系类型所构成的世界。知识图谱中本体位于模式层,描述概念层次体系,是知识库中知识的概念模板。)
(Tips 2:通俗来说,本体是人类对事物的形式化描述,本体库可以说是同一类事物的本体的集合,按描述领域可以将本体库分为通用本体库和领域本体库,这样我们就可以很自然的将知识图谱分为通用知识图谱和领域知识图谱)。
2.1.1 技术架构
这张图足以说明:
图2-1:知识图谱技术架构
2.1.2 知识图谱构建方式
知识图谱有两种构建方式:自顶向下与自底向上
自顶向下是由抽象到具体,先为知识定义好本体并通过专家手动编辑形成数据模式,再将实体加入到知识库,以此方式构建知识图谱需要以百度百科这样的结构化知识库作为基础。
自底向上是由具体到抽象,采用从开放性的数据中提取实体,基于行业现有标准进行转换,从现有高质量数据源中进行映射,并将可信度高的数据加入知识库,再构建顶层的本体。
2.2 知识建模
知识建模就是建立知识图谱的数据模式,知识图谱的数据模式也是对整个知识图谱的结构进行定义,需要保证图谱可靠性。
2.2.1 如何使用数据进行抽象建模
第一 以实体为目标,实现对不同来源的数据进行映射合并。(实体抽取与合并)。
第二 利用属性来表示不同数据源中对实体的描述,形成对实体的全方位描述。(属性映射与归并)。
第三 利用关系来描述各类抽象建模成实体的数据关系,从而支持分析关联。(关系抽取)
第四 通过实体链接技术,实现围绕实体的多种类数据的关联存储;(实体链接)
第五 使用事件机制描述客观世界中动态的发展,体现事件与实体间的关联;并利用时序描述时间的发展状况。(动态时间描述)
2.2.2 建模的关键技术与难点
1、满足多人在线协同编辑,且实时更新。
2、能够导入集成使用现有结构化知识。
3、可以支持大量数据
4、能够支撑事件、时序等复杂表达式。
5、能够与算法进行整合,避免全人工操作
2.3 存储方式
知识图谱是基于图的数据结构,存储方式主要有:RDF存储和图数据库(Graph Database),知识图谱数据存储需要支持的基本数据存储有:三元组知识存储、事件信息存储、事态信息存储、使用知识图谱组织的数据存储。
2.3.1 RDF(资源描述框架)介绍
RDF(资源描述框架 Resource Decription Framework)是W3C语义网标基础技术规范的第一层;R代表页面、图片、视频等任何具有URI标识符。D代表属性、特征与资源之间的关系;F代表模型、语言与描述的语法。RDF是一个三元组(triple)模型,即每一份知识可被分解为主(subject)、谓(predicate)、宾(object),刚好对应存储实体、关系、实体,实体、属性、值。
图2-2:W3C推荐语义网基础技术规范-图片来源百度百科
OWL:RDF Schema 的扩展
复杂类:交、并、补 | 属性约束:存在量化、全称量化 | 基数约束:最大基数约束、最小基数约束 | 属性特征:反、对称、非对称、 不相交、自反 ;属性链;
SPARQL简介
RDF的查询语言:基于RDF数据模型 ;可以对不同的数据集进行复杂的连接 ;所有主流图数据库均支持 ;
2.3.2 图 DBMS 的 DB-Engines使用排名
图2-2:数据来源:https://db-engines.com/en/ranking/graph+dbms
由上图可见现在市面上大部分使用neo4j进行知识图谱存储,而neo4j的特点是采用原生图存储与处理,不支持AICD事物处理,不使用Schema;存在的不足是在企业数据管理场景下不使用Schema难以把握整体数据,且不支持时态信息的存储,非企业版本受数量、查询速度等方面的限制。
2.3.3 图数据库的选择
关于知识图谱的存储,并没有一种通用的能够解决所有问题的方案,主要还是依据数据特点进行数据存储结构的选择与设计;在考虑选择存储时主要基于以下几方面进行整体权衡与选择:
1、基础存储支撑灵活,可按数据场景选择使用关系型数据库,或非关系型数据库及内存数据库;
2、基础存储可扩展、高可用;
3、按需要进行数据分割,可以依据数据类型进行划分;
4、适时使用缓存和索引,使用分布式Redis作为缓存,按需进行数据缓存。
5、善于利用现有成熟存储;
6、保持图形部分数据的精简;
7、不在图中作统计分析计算,对于需要进行统计分析计算的数据,需要导出到合适的存储中进行。
选择指标可归类为以下几点:
1、数据存储支持;
2、数据操作与管理方式;
3、支持的图结构;
4、实体与关系表示;
5、查询机制;
根据对图数据的选择指标来选择适合业务的图数据库才是最重要的,下面就来分析对比各个图数据库功能对于各个指标的支持情况:
图2-3:各图数据库的功能支持
图2-4:各图数据库操作与管理方式支持情况
图2-5:各图数据库支持图结构的情况
图2-6:各图数据库的实体与关系表示情况
图2-7:各图数据库支持查询机制支持情况
2.3.4 知识存储关键难点
知识存储的难点主要存在于存储与推理计算,具体可分为:
1、大规模三元组数据的存储
2、知识图谱组织的大数据存储
3、事件与时态信息的存储
4、快速推理与图计算的支持
2.4 知识获取
知识获取的整个过程是指从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱中。
2.4.1 如何从数据到知识
知识图谱构建的每一步都包含着巨大的困难,无论从数据获取、数据处理、数据估算、及数据应用各个阶段都包含着各种困难:
1、来源广:内部数据、互联网数据、第三方数据;
2、类型多:结构化、半结构化、非结构化数据,大多数为半结构化与非结构化数据;
3、量级大:大数据时代,数据量级通常是TB、PB;
4、模式不可预知:模式在数据出现之后才能确定,且数据模式随数据不断增长而演变;
图2-8:知识图谱数据处理流转图
半结构化数据源解析:
如今网站大部分是通过模板生成的,因此通常需要使用包装器来解析,包装器可以自动学习,但为保证准确度,通常使用人机结合方式;数据源解析,由于网站的高度可变性,因此还没有统一的工具。实际应用中,通常针对不同结构的数据配置相应的包装器,完成数据解析。
包装器处理步骤:
输入源设置、预处理配置、抽取目标配置、抽取过程配置(为抽取目标设置抽取规则)、结果后处理;
非结构化数据抽取主要为文本信息抽取:
包括实体识别、关系抽取、概念抽取、事件抽取。信息抽取可分为面向特定领域的信息抽取和面向开放领域的信息抽取。
面向特定领域信息抽取可预先定义好抽取的关系类型,主要面向专业领域的信息抽取,信息规模小、对精度要求高,工具DeepDive使用机器学习算法训练系统来减少各种形式的噪音和不确定性,并为每一个决断进行复杂的可能性计算;该工具基于联合推理算法让用户聚焦特征本身,要求使用者更关心特征本身而非算法,并且允许用户使用简单的规则来影响学习过程以提升结果的质量,也考虑用户反馈来提高测试的准确度。
Tips:DeepDive主要针对关系抽取,在指定的关系抽取中效果比较理想,在实体确定后可很好的进行关系抽取。未提供专门的针对概念、实体事件抽取的支持;支持中文关系抽取,仅需要引入中文相关的基础处理工具即可;需要大量的标注语料支持,通过人共设置标注规则。
文本抽取:
文本抽取目前还没有统一的实现各类信息抽取的现成工具。通用解决方式是把现有的工具进行集成,依据抽取任务的不同使用不同的抽取工具,需要对信息进行有针对化的抽取方法,通常使用已有结构化知识进行监督学习。
NLP分词、命名实体识别工具:NLPIR、LTP、FudanNLP、Stanford NLP…… ;
知识图谱每一轮的迭代构建过程根据知识获取的步骤主要包含三个阶段:
1、信息抽取:从各类型(结构化、半结构化、非结构化)的数据源中抽取实体、属性、关系与属性值,在这些数据上构建本体库。
2、知识融合:获得新知识或数据后,对其进行整合、消歧;
3、知识加工:在知识融合之后,要对数据的质量进行评估,确保数据合格,以确保知识库质量。
2.4.2 信息抽取
信息抽取又分为包括实体抽取、关系抽取和属性抽取。
实体抽取
实体抽取也叫命名实体识别(Named Entity Recognition,简称NER),是从文本数据集中自动识别命名实体。
根据抽取的范围可分为:
面向单一领域信息抽取构建的知识图谱成为行业知识图谱,主要识别文本或数据中的人名、地名、专业术语、时间等实体信息。
抽取方式有:
1、启发式算法 + 人工规则,实现自动抽取实体信息的原型系统;
2、统计机器学习方法辅助解决命名实体抽取问题。
3、有监督学习 + 先验知识。
面向开放领域信息抽取构建的知识图谱成为通用知识图谱,不再面向特定知识领域,而是面向整个互联网。
抽取方式有:
1、人工建立科学完整的命名实体分类体系;
2、基于归纳总结的实体类别,基于条件随机场模型进行实体边界识别,最后采用自适应感知机实现对实体的自动分类。 3、采用统计机器学习的方法,从目标数据集中抽取与之具有相似上下文特征的实体,从而实现实体的分类与聚类。
4、迭代扩展实体语料库。
5、通过搜索引擎的服务器日志,聚类获取新出现的命名实体。
关系抽取
文本数据经过实体抽取得到一系列离散的命名实体,但要得到语义信息,还要从文本信息中提取实体之间的关系,通过关系连接实体,形成网状的知识结构。
属性抽取
属性抽取是从文本源中抽取实体的属性信息,比如人物的属性包含姓名、年龄、学历、国籍、教育背景等等。
抽取方式有:
1、将实体属性作为实体与属性值的词性关系,将属性抽取任务转化为关系抽取任务。
2、基于规则和启发性算法,抽取结构化数据。
3、基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
4、采用数据挖掘的方法,直接从文本中挖掘实体属性和属性值的关系模型,据此实现对属性名和属性值在文中的定位。
事件抽取
事件抽取可分为预定义事件抽取 和开放域事件抽取。
行业知识图谱主要为预定义事件抽取。常采用模式匹配的方法,步骤如下:
1、准备事件触发词表;
2、候选事件抽取:寻找含有触发词的句子;
3、时间元素抽取:根据事件模板抽取相应的元素;
图2-9:事件抽取实例
面向开放领域的信息抽取往往对数据之间关系无法预知,通常是基于语言学分析进行抽取,数据规模大、数据精度低。常用抽取工具有ReVerb、TextRunner,抽取准确率较低,通常先进性信息抽取探索、才结果中发现新关系、然后结果上进行信息抽取。
可利用数据源之间的冗余信息,使用较易抽取的信息(结构化数据)辅助不易抽取的信息(半结构化数据、非结构化数据)
知识获取技术难点
1、从结构化数据库中获取知识:D2R(复杂表数据的处理)
2、从链接数据中获取知识:图映射(数据对齐)
3、从半结构化(网站)数据中获取知识:使用包装器(方便的包装器定义方法,包装器自动生成、更新与维护)
4、从文本中获取数据:信息抽取(结果的准确率与覆盖率)
Tips:
利用D2R工具(D2RQ):从结构化数据库中获取数据需要将关系数据库转换为虚拟的RDF数据库,主要包括:
D2R Server:HTTP Server,提供对RDF数据的查询访问接口,以供上层的RDF浏览器、SPARQL查询客户端以及传统的HTML浏览器调用。
D2RQ Engine:利用一个可定制的D2RQ Mapping文件将关系型数据库中的数据转换成RDF格式;
D2RQ Mapping Language:定义关系型数据转成RDF格式的Mapping规则。
存在的问题: 直接转换成RDF,难以与知识建模结果对应,也难以同其它知识进行融合。 新数据的增量映射。 海量数据映射。
2.4.3 知识融合
知识融合介绍
通过信息抽取之后从数据源中得到实体、关系、属性、属性值等信息。接下来就需要将这些多源异构、信息多样、动态演化的知识通过冲突检测和一致性检测,对知识进行正确性判断、去粗取精。
知识融合是一件非常复杂的工作,包括数据模式层融合、概念的属性融合与数据层融合。知识图谱的数据模式通常采用自顶向下和自底向上结合的方式,因此基本都经过人工的校验,保证了可靠性;所以知识融合的关键任务在于数据层融合。数据层融合包括实体合并、实体属性融合、从图检测与解决。
数据模式层融合通常由专家人工构建或从可靠的结构化数据中映射得到,通常在映射时确保数据统一。数据模式层融合分为:概念合并、概念上下位关系合并、概念的属性定义合并;
构建知识图谱优先从结构化数据获取,通常由对实体进行唯一标识的主键,所以可在知识抽取时设定实体合并的依据。非结构化数据抽取时同样可以设置合并规则来完成实体合并.
知识融合技术难点
1、实现不同来源、不同形态数据的融合;
2、海量数据的高效融合;
3、新增知识的实时整合;
4、多语言的融合;
知识融合步骤
知识融合主要包括两部分操作:实体链接与知识合并
实体链接(entity linking)是对将通过以上方法得到的实体通过相似度计算链接到知识库中实体操作。
在实体链接中需要进行实体消歧与共指消解;主要是为了判断知识库中的同名实体存在不同的含义,与不同命名实体具有相同含义。
实体消歧用于同名实体存在不同的含义,实体消歧结合当前语境,准确建立实体链接。实体消歧可采用聚类与基于上下文的词性消歧和词义消歧。
共指消解(对象对齐、实体匹配、实体同义)用于不同命名实体具有相同含义,采用共指消解将共同指向的实体关联或合并。
实体链接已经将实体链接到对应的实体,接下来就需要进行知识合并了。
知识合并可分为:外部数据库合并与关系数据库合并
外部数据库合并需要处理两个方面的问题:数据层融合与模式层融合
数据层融合:为避免实例与关系的冲突造成数据冗余,对实体的指向、属性、属性值、关系与所属类别进行融合。
模式层融合:将新的本体融入到已有的本体库中。其步骤可分为(获取知识、概念匹配、实体匹配、知识评估)。
关系数据库合并:企业本身或者外部机构的关系型数据库才是高质量结构化数据的重要来源,结构化的数据融入到知识图谱中可采用RDF作为数据模型,可将关系型数据库的数据转换成RDF的三元组数据(RDB2RDF)。转换工具(D2RQ)
2.4.5 知识加工
事实并不等于知识,为了获得结构化、网络化的知识体系,还需要进行知识加工。知识加工可分为:本体构建、知识推理和质量评估。
本体构建
本体是同一领域内不同主体之间进行交流的语义基础。本体可以人工手动构建也可以以数据驱动的自动化方式构建本体。人工方式构建本体的工作量巨大并且很难找到相关领域的专业人士,对于构建全局的本体库,主要还是采用自动构建技术逐步扩展而来。
自动构建过程主要包含三个阶段:实体并列关系相似度计算、实体上下位关系抽取与本体的生成。
1、实体并列关系相似度计算主要用来计算任意两个给定的实体在指标测度、相似度上属于同一概念分类的程度。如马云和马化腾在作为人名的实体,具有较高的并列关系相似度;而马云与花呗这两个实体属于同一语义类别的可能性较低,因此具有较低的并列关系相似度。常用来进行实体并列关系相似度的计算方法有模式匹配法和分布相似度。
2、实体上下位关系抽取用来确定概念之间的从属关系或者说是上下位关系。如词组(马云,人类)构成上下位关系,马云为下为词,人类为上位词。现关于实体上下位关系抽取的主要方式有:a、基于语法模式抽取上下位关系实体对;b、基于概率模型判定或区分上下位关系,经常借助百科类网站提供的概念分类知识来帮助训练模型,来提高算法精度;c、用跨语言的知识链接方法构建本体库。
3、本体的生成是对各层次得到的概念进行聚类,并对其进行语义类的标定,为该类中的实体指定一个或多个公共上位词。主要生成方法有:实体聚类方法。
知识推理
知识图谱计算可分为三个步骤:图挖掘计算、基于本体的推理、基于规则的推理
图挖掘计算:基于图论的相关算法,集成实现基本图算法,对图进行深度优先与广度优先的遍历,寻找最短路径,以及基于节点属性和关系的相似度算法,对图谱进行的挖掘与探索。(难点:大规模图算法的效率)
本体推理:使用本体推理进行新知识发现或冲突检测。本体推理的基本方法为:基于表运算及改进方法,基于一阶查询重写方法,基于产生式规则等等
基于规则的推理 在基础知识上依据行业应用业务特征进行规则定义,并使用规则引擎,编写相应的规则业务,通过推理辅助业务决策。
(本体推理与规则推理:大数据量下的快速推理;对于增量知识和规则的快速加载)
知识推理是指从已有的实体关系数据出发,进行计算推理,建立实体新关联,从而扩展和丰富知识网络,知识推理是构建知识图谱的重要手段和关键环节,通过知识推理能够从现有知识中发现新知识。
知识推理并局限于实体间的关系,也可是实体的属性值,本体的概念层次关系等。如:属性值推理:根据人的年龄可推断出其生肖;概念推理:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)。
质量评估
质量评估也是知识库构建的重要组成部分,评估的意义在于对知识体系可信度进行量化,舍弃可信度的低的知识来保证知识库的质量。
时态信息:
知识图谱中的时态信息主要是事实的生成时间、事实的有效时间段;
时态信息主为是历史数据,以记录事实的有效时间,用有限的数据冗余实现数据时态信息的应用。
时态信息的实现原则:
在基础知识图谱的基础上,构建针对时态数据处理的中间件;
对于特定类型的时序型数据,采用其他的存储机制进行存储。
2.4.6 知识更新
知识更新也要从整体架构来看,那么知识库的更新就可以分为:概念层更新和数据层更新。
概念层更新是指新增数据后获得了新概念,并自动将新概念加入到知识库概念层中。
数据层更新是指包括实体、关系、属性、属性值的新增或更新,数据层的更新需要考虑数据源的可靠性以及数据的一致性等问题,并选择在个数据源中出现频率高的事实和属性加入知识库。
知识图谱数据层更新可分为全量更新和增量更新。
全量更新是将更新后的全部数据作为输入,重新构建知识图谱,方法简单,资源、人力消耗大。
增量更新是以当前新增数据为输入,向已有知识图谱添加新知识,资源消耗小,但仍需人工定义规则,实施起来较困难,出现问题也比较多。
2.4.7 知识图谱构建方式
生命周期:知识建模 -> 知识获取 -> 知识融合 -> 知识存储 -> 知识计算 -> 知识应用
根据知识图谱的生命周期,在构建知识图谱大致有如下几种方式:
1、使用现有套装工具(如:LOD2、Stardog);
2、在现有套装工具的基础上尽心扩充;
3、使用各生命周期过程中的相应工具并进行组合使用;
4、针对性开发或扩展生命周期中特定工具;
5、完全从零开始构建;
2.4.8 知识图谱的挑战
多源异构数据难以融合
公司内部数据、新闻网站、论坛帖子、微博、微信等等,多源异构数据难以进行信息聚合、数据融合。
(使用知识图谱(本体)对各种类型的数据进行抽象建模,基于可动态变化的“概念-实体-属性-关系”数据模型,实现各类数据的统一建模)
数据模式动态变迁困难
数据结构多种多样无法应对业务逻辑、系统扩展性差、对客户响应慢、系统维护成本高。需要可自由扩展的数据模式。
(使用可支持数据模式动态变化的知识图谱的数据存储,实现对大数据及数据模式动态变化的支持)
非结构化数据计算机难以理解
计算机无法理解非结构化数据的语义,需要将非结构化数据转为结构化。
(利用信息抽取技术,对非结构化数据及半结构化数据进行抽取转换,形成知识图谱形式的知识。)
数据使用专业程度过高
行业智能问答大幅降低数据使用门槛
分散的数据难以统一消费利用
基于知识图谱数据存储、融合、分析统一平台,为用户提供统一的消费入口、以不同的形态(检索、可视化、分析等)展示给用户。
(在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可视化等技术,提供统一的数据检索、分析和利用平台)
图2-10:知识图谱的技术挑战示意图
2.4.9 图谱的设计原则
知识图谱的设计是一门工程艺术,既要对具体业务有深刻的理解,同时也要预估未来业务的变化及发展方向,从而设计出基于现状且灵活性极强的高效能系统。
在设计图谱之前需要从业务原则与效率原则出发问自己几个问题:
1、需要哪些实体、关系、属性?
2、哪些属性可以作为实体,哪些实体可以作为属性?
3、哪些信息要放在图谱中?哪些信息不要放在图谱中?
4、图谱背后的业务逻辑是怎样的?
三.知识图谱应用场景
3.1 知识应用简介
知识图谱的应用主要分为:语义搜索、智能问答、可视化辅助决策,而知识图谱的初衷是为了解决搜索引擎根据语义搜索问题。
知识图谱上层应用需要支持:知识推理、知识快速查询、图实时计算
知识图谱在应用阶段更加需要把握规范的数据表示,更强的数据关联以及更深邃的数据价值。
图谱在应用层面,现在市场上的应用主要可分为以下以下三个方向:
3.1.1 语义搜索
基于知识图谱中的知识,解决传统搜索中遇到的关键词语义多样性及语义消歧的难题,通过实体链接实现知识与文档的混合检索。(难点:自然语言的表达多样性问题;自然语言的歧义问题)
根据搜索引擎的发展阶段,可分为传统搜索是基于关键词匹配的搜索;语义搜索是基于知识图谱对用户输入进行理解,识别实体、概念和属性,并返回实体、关系、链接的数据等丰富的结果。到现如今可以说已经发展到基于自然语言理解的智能问答阶段了。
语义搜索面临两个难题:1、自然语言表达的多样性;2、自然语言的歧义;
解决方案:1、实体链接(工具:Wikipedia Miner、DBpedia Spotlight) 2、基于知识图谱的语义搜索;
图3-2:实体链接的基本方法过程
3.1.2 智能问答
针对用户输入的自然语言进行解析,对用户查询意图进行分析与理解,从知识图谱中或目标数据中进行查询检索,生成候选答案并根据结果权重进行排序,给出用户问题的答案。(难点:准确的语义解析;正确理解用户的真实意图;答案确定与排序)
智能问答系统的实现一般基于以下几种方法:信息检索、语义理解、规则专家系统、深度学习。
信息检索 要利用中文分词、命名实体识别等自然语言处理工具找到问句中所涉及的实体和关键词,然后在知识库中查找检索。实现起来较简单,应用广泛,但此方法更偏向关键词搜索,结果不如语义解析精准。
语义解析 是将口语化语言根据特定语法规则解析,得到语义表达式,再映射为数据库语言。此方法可以得到更加准确的结果,但需要依赖知识图谱的词法解析与映射等功能,并根据图结构进行语法规则匹配,实现技术困难较大。(常用方式:人工配置语义解析模板,如:小爱同学;知识图谱通用子图匹配模板)
图3-1:基于语义解析的自动问答系统
规则专家系统 需要大量专业知识与经验,需专家提供知识和经验并推理判断,模拟决策过程,适合专业领域,欠缺通用性,适用场景小。
深度学习方法 把问题与答案均采用特征向量表示,然后使用深度学习计算问题与答案的相似度。该方法需要大量训练,并且暂不支持复杂查询,而且知识更新后又需要训练。
现阶段对于智能问答采用信息检索+语义解析相结合的方式合适,满足强解释性与广泛应用。
3.1.3 可视化决策支持
通过提供统一的图形接口,结合可视化、推理、检索等为用户提供信息获取的入口。(通过可视化方式辅助用户模式快速发现;高效的缩放和导航;大图环境下底层算法(图挖掘算法)的效率)
如今知识图谱可视化困境在于缺少面向是知识图谱的可视化工具,可通过集成现有工具实现知识图谱可视化,但难点在于该工具需要依托什么样的设备环境,展现数据的什么特点,数据量过大过小时该如何做。
知识图谱可视化基本组件:图谱展示、统计分析、最短路径发现、多节点关联探寻。面向知识图谱的应用,构建基于知识图谱的一体化决策平台。
图3-3:知识图谱可视化决策平台架构
四、知识图谱应用分析
知识图谱在行业应用可大致分为通用知识图谱与行业知识图谱
4.1 通用知识图谱
通用知识图谱是面向通用全领域的知识图谱。基于百科数据,以常识性知识为主,更强调知识广度,需要拥有更多的实体,横向铺开,跨度大很难生成完整全局的本体层进行统一管理。
主要面向普通大众用户,通用知识图谱的应用主要面向于搜索、推荐、问答等业务场景,目前典型的具体应用有Google搜索、百度知心、搜狗立知(之前叫知立方),以及自动问答和聊天机器人有IBM的Watson、苹果的Siri、Google Allo、Amazon Echo、小米小爱同学、百度度秘以及各种情感聊天、儿童陪伴、客服、教育机器人等。
4.2 行业知识图谱
行业知识图谱主要面向某一特定领域的知识图谱。基于行业数据构建,对知识的准确性要求非常高,常用于辅助各种复杂问题分析或辅助决策;要有严格丰富的数据模式,并且实体通常需要较多且具有行业意义;目标用户通常需要考虑各行各业中各种级别的人员,人员不同对应的操作和业务场景不同,因此构建是需要具备一定的深度与完备性。
通用知识图谱中的知识可作为行业知识图谱构建的基础,行业知识图谱也可融合到通用知识图谱。两者相辅相成。
4.2.1 行业知识图谱应用场景分析
行业知识图谱现在主要应用场景可归纳为以下几个方面:生物医疗、图书情报、电商、农业、政府、电信、出版。
企业知识图谱
企业知识图谱在企业基础数据、投资关系、任职关系、专利、投资招标、招聘、诉讼数据、失信、企业新闻等数据层面已经有了成熟的商业级产品。众所周知的公司包括:天眼查、企查查以及联想大数据HyperGraph、中译语通joveMind。
而企业知识图谱的应用主要有以下几个方面:
企业风险评估
对于银行、担保机构、投资、政府等用户可以基于企业基础数据、投资关系、诉讼、失信等多维度关联数据,清晰展现企业数据,建立完整客户资源分类、信贷前期风险审核、采购企业风险审核、投招标企业资质评级等等,从而科学的构建评估体系,规避潜在的经营风险和资金风险。
企业社交查询
基于投资、任职、专利、投招标、涉及关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体的展现企业之间的关联。
企业最终控制人查询
基于股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门。
企业之间的路径发现
在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中 ,查询企业之间的最短关系路径,衡量企业之间的联系密切度。
企业融资发展历程
基于企业知识图谱中的投融 资事件发生的时间顺序,记 录企业的融资发展历程。
上市企业知识问答
用户通过语音或文字输入,系统通过语音输出给用户想要的答案。
金融交易知识图谱
企业知识图谱、客户交易数据、客户之间的关系、交易行为数据。金融知识图谱的应用:
辅助信贷审核
数据统一查询,全面掌握客户信息;避免由于系统、数据等孤立造 成的信息不一致造成信用重复使用、信息不完整等问题。
反欺诈
有效识别身份造假、团体欺骗、代办包装等欺诈案件,分析案件中涉及的复杂关系网络。引入知识图谱,能有效进行去中心化的知识融合,快速分析可能性最大的元凶,相关部门就可高效的对其进行有针对性的深入调查。
其他应用场景
异常分析 、 失联客户管理 、 精准营销 、 智能投研 、 智能公告
典型应用项目国外的有Datafox、Spiderbook,国内的有文因互联的文因云、文因助手、文因搜索,智言科技、明略数据、达观数据、海知智能的水晶球、知因智慧的3K平台等等,对金融方面均有涉及。
医疗知识图谱
包括医疗专业知识、医疗文献、医疗常识、电子病历大数据、医案、现有医疗资源、疾病库、指南与规范。医疗知识图谱的应用:
中医药知识平台
针对中医药知识体系系统梳理 、建模和展示 ;以图形可视化方式展示核心概念之间的关系;辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系; 与阅读文献等手段相比,可大幅度节约知识检索获取时间。
辅助诊断与治疗
新药物发现
面向药物研发的开放数据访问平台开发,其核心技术就是采用语义技术为有关 研究人员提供高效的数据访问技术环境的支持。研发新药要花费较高的成本以及周期,医疗公司需要降低研发成本。
典型项目应有欧盟第七框架下的开放药品平台Open Phacts利用实验室数据、期刊文献研究成果数据、以及Clinical Trials.org,IBM登月计划(moon shot),国内熵流科技的医疗开放平台,中医药知识服务系统,其他大多都在布局中,唯有落地应用。
相关资料:医学知识图谱构建与思考及我们的实践(附48页完整PDF)
图书情报资源知识图谱
社会发展到今天企业与机构积累了大规模的数据,但并未实现价值,甚至消耗了大量的运维成本,成为公司的负资产,对这数据进行赋能,达到舆情分析、商业洞察、军事情报分析和商业情报分析。
包括图书馆分类学体系、特定方向的知识体系、图书、期刊、论文、专利、报刊、百科数据、行业网站数据。
知识导航与资源展示
使用知识图谱中的知识体系进 行知识导航,引导用户学习知识体系,以及通过实体链接所 关联的资源。
知识点推荐与搜索
精准理解搜索意图,实现多元复杂对象的搜索,达到多元化搜索粒度,如段落级、语句级、词汇级的搜索。针对不同人群进行个性化知识、商品推荐。
图书情报KG方面中国最有名的就是中国知网以及明略数据,SCI官网软件EndNote、zotero、noteexpress等等。
农业知识指导
将不同格式分散存储的大量农业资料收集分析,如作物、土壤、肥料、虫害、天气等知识,统一用图谱表示,形成完整数据库,针对不同时节、不同情况,形成有针对性的处理方案,指定科学的管理策略。
还包括政府行业数据管理、智能客服系统等等,更多领域还需要从业人员去挖掘。
其他类型场景的应用实例:客户个性化前瞻性关怀方面有美国最大的第三方账单审计和客服中心的Amdocs,还有Palantir为美国搭建了政府领域知识图谱,成功帮助美国政府定位到本拉登的位置。
总之,知识图谱将赋能认知智能,而认知智能是一种能够实实在在落地的,有着广泛且多种多样需求的,能够产生巨大社会价值与经济价值的人工智能技术。
五、知识图谱市场分析
以下主要分析了国内知识图谱公司的产品与主要服务,以及相关高校科研知识图谱产品进行简单的分析。
5.1 企业知识图谱产品对比
公司企业简介平台名称平台简介主要服务
海乂知(Plantdata)提供企业级知识图谱存储管理平台KGMS,面向分析人员的KGPro,运营人员的KGSensor,终端用户KGRobot等KGaaS消费套件。KGaas智能平台
(使用手册)
KGMS:企业级知识图谱管理平台;
KGBuilder:配置式自动化图谱构建工具;
KGAssist:插件式知识服务助手;
KGRobot:会话式图谱机器人开放平台;
KGPro:统一知识图谱分析引擎;
关联分析、路径分析、图数据探索、图谱可视化、推理、自然语言检索、智能BI、语义标注
明略数据以知识图谱为支撑的行业人工智能解决方案提供商。深耕公共安全、金融、工业与物联网等行业领域,构建行业的知识图谱,实现从个体赋能到群体智能的产业转型升级。明智系统(产品介绍手册下载地址)明智系统:行业人工智能大脑;
NEST:知识图谱数据库;
小明:简单好用的企业级AI入口“小明”
以对话形式提供业务支持;
百度以数据、图片、信息接入搜索服务百度知识图谱行业知识图谱解决方案;
图数据库BGraph;
实体标注;
汉语检索;
智能搜索:图谱问答、百度汉语、通用实体卡卡片;
自动内容生成;
海致星图致力于利用知识图谱 帮助机构整合数据 分析关联产生真正智能的结果 从而提供给社会更好的服务
金融知识图谱金融知识图谱;
智能CRM;
智能风控;
智能信贷解析;
智器云科技致力于为公检法、海关、烟草、税务、审计、银行、保险等机构和组织,提供功能强大、简单易用、自主可控的数据处理及情报分析工具及平台,并提供高效专业的情报分析服务及培训火眼金睛;
月光宝盒;
天罗地网;
火眼金睛:桌面端数据可视化认知分析软件;
月光宝盒:适合团队协作的智能数据库系统;
天罗地网:分布式大数据认知分析服务产品;
(软件下载地址)
软件与培训
腾讯一站式全域行业数据融合,提供金融 AI 风控等泛安全领域知识图谱解决方案星图(Star Knowledge Graph,SKG)一站式全域行业数据融合,提供金融 AI 风控、物联网等泛安全领域知识图谱解决方案;星图增强企业业务,催新商业模式。提供关联查询、可视化图分析、图挖掘、机器学习和规则引擎;支持关联关系数据的快速检索、查找和浏览;挖掘隐藏关系并模型化业务经验。
网感至察专注于输出知识图谱与认知计算能力,致力于TML认知计算平台研发。网感认知云
网感认知云:帮助建立行业智能,融合知识引擎与神经网络,建立知识图谱,基于案例数据,针对业务应用场景打造知识与逻辑推理能力。
网感数据工厂:帮助提炼数据价值,开展数据决策,从数据采集、治理、分析、挖掘到业务决策的数据处理流水线,实现业务与数据的闭环。
销售流向数据治理与分析;
选品定价;
消费者口碑洞察;
门店运营优化;
知识引擎预诊预判;
商情洞察;
会员画像;
客服洞察;
慧科技术透过先进的科技、创新的解决方案及专业的服务,将全面的新闻信息转化为与客户息息相关的情报。单片文本处理技术;
命名实体识别;
情感分析;
话题分类;
文章过滤;
自动摘要;
关系抽取;
评论归纳;
相似文章聚类;热点话题发现;事件检测与追踪;品牌识别;人脸识别;
海知智能专注于语义理解,通过自然语言理解(NLU)和知识图谱(KG)技术结合,在“AI+产业”应用领域,打造海知第三方知识大脑开放技术平台,帮助构建企业联邦式知识图谱体系,实现智能化升级。技能插件工具;
智能分析员;
知识图谱生产线;
技能插件工具:面向模板进行机器学习的知识库问答系统;开放对接第三方bot平台;
智能分析员:面向绩效预测、线索发现以及风险预警、预测;
事件触发的产业链传导机制分析;针对医药、金融等行业领域。
知识图谱生产线:人工&半自动化 构建领域知识图谱;覆盖相对全面 质量相对可靠 更新比较及时;基础、专业和行业等系联邦式知识图谱体系。
bot平台,事件分析、医药金融领域分析预测;构建行业知识图谱;
5.1.1 KG公司产品落地分析
5.1.3 商业模式与战术
市场上KG相关公司在商业模式与战略战术上略有不同,但主要集中在三类:
第一 以现有产品加定制化服务的解决方案进行垂直行业服务,能与客户进行深度融合积累垂直行业经验与知识,耗时耗力,但可深度熟悉行业并建立壁垒。
第二 采用通用性较高的模块化产品由集成商组合后销售,节省人力,但客单价较低。
第三 成为技术提供商,专注特定技术,与不同客户合作获得产品分成或项目营收,面向领域广泛且灵活,对技术要求较高,不独立服务客户,只针对技术某环节提供服务。
知识图谱应用崛起不容小觑,虽然各家的打法各不相同,但都采用多种商业模式相融合的战术,行业相对处于初期,往往以客户要求为基准,并且处理行业“脏乱差”的数据,服务周期一般在数月,甚至上年。但为公司战略布局,各家公司还是在深挖各个不同垂直行业,希望“聚井成湖,湖化为海”。
上面的商业模式与战术,无论哪一种都存在一定的弊端与不足,且看不到市场的增长空间与增长方向,商业化道路更是岌岌可危,知识图谱创业公司必须捅破商业价值与数据闭环的双重挑战。
5.1.4 KG公司的挑战
目前绝大多数公司都是面向To B市场,B端客户又可分为大B与小B,大B一般有预算、有耐心,需求来源一般为上层文件和领导指示,客户对KG不了解,双方需要经过漫长的磨合与试错,沟通需要消耗大量时间,造成资源浪费,且最终真正转化为价值的比例非常小。尤其是大B企业公司内部流程漫长冗余,所以项目的持续周期非常长,造成人员的占用浪费,不利于KG产品高效落地。小B客户预算小,需求不明确,数据量小,服务小B用户很难获得经验与技术提升。
KG本身是一种从无到有搭建知识库的过程,只是为行业和企业赋能,而这种能力并不能直接转化为生产力并创造商业价值。就像你给客户在悬崖的另一边建好了一栋豪华别墅,告诉他你只要走过去你就可以拥有怎样怎样的幸福生活,但是重点在于客户不知道如何跨过这道悬崖。
能否用好知识图谱并发挥商业价值是未来的重大挑战。“目前尚没有一家公司能够真正通过KG技术提高客户投资回报率,提高客户的投研效率。”,所以不但要构建强大功能和完备的图谱知识体系,更重要的是如何帮助客户如何使用并通过知识图谱中的数据应用产生商业价值。因此,“最后一公里该如走”才是知识图谱产品落地的关键。
大多KG公司在数据上不能形成应用于商业闭环。不能和互联网巨头相比的原因也在于无法将技术快速应用于产品,通过数据分析得出KG产品优势。即使服务于企业客户,在沟通、数据走势上不能即时反馈,对于产品的使用改良和算法改良发展也会慢于巨头企业。而且对于KG数据的自增长、自吸收归纳更新图谱也存在巨大难题,也就是整体闭环,如果停滞于服务企业客户,注定分不到更大的市场蛋糕。
只提供技术服务且被替代性非常强,当技术逐渐发展,人才也会非常多,主动权不掌握在自己手中,一直提供底层的技术处理并处于商业底端,无法最大化KG价值。
所以形成商业闭环、快速迭代、技术算法升级、知识更新能力时KG公司的核心竞争力。然而这些确是真正的难题,目前还没有更好的对策。
无论如何,知识图谱还是为人工智能时代带来了全新的机遇与视角,知识推理能力与结构化知识展示是人们迫切需要的新技术与新能力。
5.2 学校及其他组织项目:
复旦知识工场实验室http://kw.fudan.edu.cn/
思知(OwnThink)
上海交大 Acemaphttps://www.acemap.info/
清华大学OpenKEhttp://139.129.163.161//
中国知网http://www.keenage.com/zhiwang/c_zhiwang.html
语知平台:http://yuzhinlp.com/chnParse.html
中草药知识服务系统http://zcy.ckcest.cn/tcm/
NLPIRhttp://ictclas.nlpir.org/nlpir/
哈工大(大词林)http://www.bigcilin.com/
北航(中文知识图谱)http://www.actkg.com/linking/
六、结束语
前两天看了一篇《人工智障2:你看到的AI智能与智能无关》短短3天就10万+阅读量,全文长达3万余字,深刻阐述了现在智能语音对话产品的实现原理,也表明了什么智能音响、智能助理其实并不智能;本文 <3.1.2智能问答> 章节也提到就是利用人工配置语义解析模板实现,之前也在公众号发过一篇文章《语音对话系统的设计要点与多轮对话的重要性》,知道实现原理与设计模式之后,希望大家对如今的人工智能有一个清楚地认识,不要将其神化夸大其词,也不要失去信心,理性看待科技的发展。
科技对社会的颠覆,往往来自从业人员一点一滴的努力。研究之初谁又能预知电磁波、机器、计算机、互联网的会成为日后人们日常生活中的必需品呢?AI还是个孩子,行业人员都是他的父母及亲朋好友,我们又如何要求一个牙牙学语、蹒跚学步的孩子马上成为演讲冠军与马拉松第一呢?虽然现在用笨方法实现了表面的智能,未来如何我不知道,但可以确定的是一定会越来越好。
最后,一碗鸡汤奉上:机遇与挑战并存,动力与压力同在。
八、主要参考资料
1、知识图谱系列基础知识简介;薇拉vera@勾陈安全实验室
2、面向网络大数据的知识融合方法综述 ;林海伦、王元卓
3、行业知识图谱构建与应用101;王昊奋,胡芳槐
4、知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架;悟乙己
5、本体库(理论篇);月光海苔
6、CMIC:深入阐述知识图谱的行业应用于未来发展;万皇之皇
7、写作之难,在于把网状的思考,用树状的结构,体现在线性展开的语句里;1274417320
8、知识图谱的技术与应用;白乔
9、为什么知识图谱终于火了?| 甲子光年
网友评论