文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。
转自 | 知识工场
作者 | 肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人
随着近几年知识图谱技术的进步,知识图谱研究与落地发生了一些转向。其中一个重要变化就是越来越多的研究与落地工作从通用知识图谱转向了领域或行业知识图谱,转向了企业知识图谱。知识图谱技术与各行业的深度融合已经成为一个重要趋势。
提纲:
报告思路很简单,是一问一答的形式。这里列出的问题是各个行业普遍关心的代表性的关键问题。
1什么是领域知识图谱?
首先回答什么是领域知识图谱?领域知识图谱(Domain-specific KnowledgeGraph: DKG)的概念是从通用知识图谱(General-purpose Knowledge Graph: GKG)演化而来,所以我们首先阐述什么是知识图谱(knowledge graph)。在回答什么是知识图谱这个问题上有个非常有意思的现象,一直以来,工业界和学术界都没有对于知识图谱给出一个严格的定义。如果大家去搜维基百科,会看到维基百科说知识图谱是Google的一种知识表示。然而,一个相对严格的定义是必要的,我给出的定义是“大规模语义网络”。理解这个定义有两个要点。第一个是语义网络,语义网络包含的是实体、概念以及实体和概念之间各种各样的语义关系。比如C罗是一个足球运动员,是一个实体,金球奖也是一个实体。何为实体?黑格尔在《小逻辑》里面曾经给实体下过一个定义:“能够独立存在的,作为一切属性的基础和万物本原的东西”。也就是说实体是属性赖以存在的基础,必须是自在的,也就是独立的、不依附于其他东西而存在的。比如身高,单单说身高是没有意义的,说“运动员”这个类别的身高也是没有意义的,必须说某个人的身高,才是有明确所指,有意义的。理解何为实体,对于进一步理解属性、概念是十分必要的。再来看概念(concept),概念又称之为类别(type)、类(category)等。比如“运动员”,不是指某一个运动员,而是指一类人,这就是一个概念。语义网络中的关联都是语义关联,这些语义关联发生在实体之间、概念之间或者实体与概念之间。实体与概念之间是instanceOf(实例)关系,比如“C罗”是“运动员”的一个实例。概念之间是subclassOf(子类)关系,比如“足球运动员”是“运动员”的一个子类。实体与实体之间的关系十分多样,比如“C罗”效力于“皇家马德里球队”。
理解知识图谱的第二个要点是大规模。除了语义网络之外,上个世纪伴随着专家系统的研制而发展出了类别多样的知识表示形式,比如产生式规则、本体、框架,还有决策树、贝叶斯网络、马尔可夫逻辑网络等。这些知识表示表达了现实世界各种复杂语义。知识表示多种多样,语义网络只是各种知识表示中的一种而已。既然上世纪七八十年代有如此多的知识表示,而且知识图谱本质上是语义网络,为什么今天还要提知识图谱?那是因为知识图谱与传统七八十年代的知识表示有一个根本的差别,那就是在规模上的差别。知识图谱是一个大规模语义网络,而七八十年代的语义网络是个典型的小知识(small knowledge)。知识图谱的规模巨大,像Google knowledge graph在2012年发布之初就有5亿多的实体,10亿多的关系,如今规模更大。知识图谱的规模之所以如此巨大,是因为它强调对于实体的覆盖。比如说运动员作为一个类别在知识图谱里涵盖了数以万计诸如C罗这样的实体。知识图谱的规模效应带来了效用方面的质变。知识图谱是典型的大数据时代产物。关于这些观点的详细描述参考本人的《知识图谱与认知智能》,在此不再赘述。
那什么是领域知识图谱呢?比如“足球知识图谱”,里面大多都是跟足球相关的实体和概念。如果知识图谱聚焦在特定领域,就可以认为是领域知识图谱。领域知识图谱的范畴再大一些就是行业知识图谱了,比如农业知识图谱。近几年一些大型企业对于利用知识图谱解决企业自身的问题十分感兴趣,于是就有了横贯企业各核心流程的企业知识图谱。领域知识图谱、行业知识图谱与企业知识图谱有时边界也十分模糊。近几年,这几类知识图谱得到越来越多的关注。
1.1 从“小知”识到“大”知识
在理解领域知识图谱时,我想指出一个非常重要的观点,我称之为“NoKG”,也就是Not only KG。这里是借鉴“NoSQL”的说法。首先,知识图谱只是知识表示的一种,单单知识图谱不足以表达现实世界的丰富语义,不足以解决所有问题。比如很多领域有着丰富的if-then规则(比如故障维修、计算机系统配置),这些规则利用知识图谱表达就很牵强,特别是对于ifA and B then C 这样的规则。条件部分的原子表达式之间的关系可以很复杂,利用知识图谱难以表达。知识表示方面的缺陷限制了知识图谱解决问题的范围。其次,知识图谱辅以其他知识表示则有可能解决很多复杂的实际问题。作为一种语义网络,知识图谱在大数据的赋能下就已经能够解决很多实际问题。可以设想一下,还有更多的知识表示没有突破规模瓶颈。在大数据的赋能下,其他类型的知识表示也将能够解决更多实际的问题。越来越多的领域应用需要的知识已经突破了知识图谱的范围,对其他知识(比如产生式规则、贝叶斯网络、决策树等)提出了诉求。比如,我们正在尝试联合使用知识图谱与产生式规则实现面向故障诊断的精准语义检索。
NoKG的另一层含义在于领域应用不仅需要静态知识,更需要动态知识。知识图谱侧重于表达实体、概念之间的语义关联,这些语义关联大多是静态的、显性的、客观的、明确的。而实际应用中对过程性、决策性知识是有着大量需求的,这些知识大部分是动态的、隐形的、带有一定主观性的,比如疾病诊断、投资决策、司法解释等等。这些应用需要把决策的因素、机制与过程加以表达。动态知识的沉淀对于很多行业来说是强需求。随着我国人口红利消失,人力成本持续提高,特别是富有经验的领域专家成本越加高昂。这些人员一旦流失,会给企业造成巨大损失。为此,企业特别需要将领域专家大脑中的决策知识加以沉淀,赋予机器,从而一定程度上降低对专家的依赖。但是,动态知识的表达与获取仍然是个具有重大挑战的技术问题。很多决策过程难以明确表达,很多决策因素是隐性的。比如老中医看病,中医智能化一直希望将有经验的老中医的看病经验沉淀下来。但是老中医自己也未必说得清楚是根据什么看病的。虽然中医也有朴素的理论在支撑其诊断,但总体而言整个过程是模糊的。在传统知识管理领域曾经设计出很多激励制度以促进企业内的知识表达与沉淀,但是阻力重重,收效甚微。关键问题在于工程师、分析师、医生等等领域专家自己也不知道如何表达。传统知识工程通过专业的知识工程师协助领域专家进行知识获取,但总体上的代价太大,过程太重,不易成功。动态过程的知识表达已经困难重重,知识获取就更加雪上加霜了。曾有人设想获取金牌投资经理投资决策的知识,尝试为投资经理提供新闻阅读工具,通过其点击行为把握其所关注新闻,甚至通过眼球跟踪捕捉其关注的文章片段,以期精准捕捉其决策要素。知识获取之困难可见一斑。但是知识表示及获取的重心将逐步过渡到动态知识是必然趋势,也是摆在研究人员面前的攻关战。
2DKG与GKG的关系?-区别
现在回答第二个问题,DKG(领域知识图谱)和GKG(通用知识图谱)的关系和区别。首先来看GKG和DKG的区别。两者之间的区别是明显的,体现在知识表示、知识获取和知识应用三个层面。在知识表示层面的差别可以从广度、深度和粒度这三个维度加以考察。从广度来看,GKG涵盖的范围明显大于DKG。从深度来看,DKG通常更深,尤其体现在概念图谱的层级体系上。比如,在娱乐领域,追星族们可能很关心“内地鼻子长得帅的男明星”,在电商领域单单“连衣裙”不足以满足人们的购物需求,电商图谱中往往要涵盖“韩版夏装连衣裙”这样的细分品类。如何表达与处理这些较深层次的概念对于很多领域知识图谱应用而言是个巨大挑战。需要指出的是层次较深的细粒度概念往往不是基本概念(basicconcept)。这意味着不同人对这些深层次概念有着不同的认知体验的,因而会有较大的主观分歧。这就是很多人工构建的概念层级深到一定层次就很难继续下去的重要原因。此时,数据驱动的自下而上的自动化方法往往比较适合。
第三个维度是知识表示的粒度,DKG通常涵盖细粒度的知识。知识表示是有粒度的,知识的基本单元可以是一个文档,也可以是文章中的段落、法律中的条款、教育资源中的知识点等等。传统知识管理往往以文档为单位组织企业知识资源。在司法智能中的司法解释往往需要将知识粒度控制在条款级别。在教育智能化领域,学科的知识点往往是个合适的粒度,以知识点为中心组织教学素材和资源是个可行的思路。知识表示的粒度也可以细化到知识图谱中的实体与属性级别,或者是逻辑规则中的条件与结果。比如法律条款可以进一步细化到由条件与结果构成的产生式规则,数学中的很多定理也可以进一步细化为相关的公理系统(一组产生式规则)。既然知识表示的粒度是可控的,我们应该如何控制呢?很多场景下知识表示的粒度是个需要仔细斟酌的问题。
一般而言,粒度越细表达能力越强,但是其表达与获取代价也越大。细粒度知识表示一般是领域应用的强需求之一。比如在知识管理领域,粒度粗放已经成为阻碍企业知识管理发展的根本问题。传统知识搜索只能搜索到文档级别,如果不幸这个文档含有1000页内容,则会给用户带来巨大麻烦。但是,凡事过犹不及,太细粒度的知识表示也往往会给知识获取带来巨大的复杂性。合理控制知识表示的粒度,不盲目求精求细,是知识库技术落地成功的关键思路之一。很多落地实践中过早地陷入细粒度知识获取的泥潭当中,消耗巨大但收效甚微。但事实上细粒度的知识表示在很多场景下也是不必要的。因此,在实践中建议紧扣应用需求,从应用出发反推需要怎样粒度的知识表示。
在知识获取层面,DKG对质量往往有着极为苛刻的要求。因为很多领域应用场景是极为严肃的(也就是mission critical 的AI应用)。比如医疗,某个药物有哪些禁忌症,这类知识是不能出错的。对质量的苛刻要求自然就意味着领域知识图谱构建过程中专家参与的程度相对较高。需要指出的是,专家的积极干预并不意味着盲目的手动构建。如何应用好人力资源,包括哪些环节让人参与以及专家参与的具体方式等问题一直以来就是领域知识图谱落地的关键问题。在众包计算中有不少方法值得借鉴。但是对于有着依赖专家经验的历史传统而言,如何尽可能降低人力资源的成本是个值得深入研究的问题。一般而言,我们期望构建过程尽可能自动化;但是由于对目标图谱有着苛刻的质量要求,最终的知识验证过程还是要诉诸人力。较多的人工干预自然决定了领域知识图谱落地过程自动化程度相对较低。相比较而言,通用知识图谱构建一定要高度自动化,因为通用知识图谱规模太大(动辄数千万的实体,数亿的关系),如果没有自动化的办法,根本无法推进,除非存在有效的大规模众包化手段,比如知识类互动游戏等。
在知识应用层面,首先,领域知识图谱的推理链条往往相对较长。原因有两个方面。一是领域知识图谱相对密集。比如某个疾病在通用知识库中相关实体可能寥寥无几,但是在一个医疗知识图谱中相关实体可能数以百计。知识库建设有一个有意思的现象那就是永远不要指望知识库是完备的。完备是知识库建设永远在追求但却无法企及的目标。但是,DKG相对于GKG在单个实体的相关知识覆盖面有着明显优势。也正是基于此,领域知识图谱上的推理链条可以较长。在一个相对稠密的领域知识图谱上长距离推理之后的结果仍然还可能是个有意义的结果。但是在通用知识图谱上,由于其相对稀疏,多步推理之后语义漂移(semantic
drift)严重,其推理结果很容易“面目全非”、“离题千里”,令人难以理解了。所以在GKG之上的推理操作大都是基于上下文的一到两步的推理。比如搜索“刘德华”,可以推荐他的歌曲,那是因为知识图谱告知我们刘德华是一个歌星,主要作品是歌曲,这是两步的推理链条。其次,领域知识图谱上的计算操作也相对复杂一些。像之前提到的深度推理就是一种复杂的应用。此外,领域应用往往会涉及复杂查询。比如在公共安全领域,对于重点监控人群,通常需要在相关图谱中查询该人群形成的稠密子图。诸如此类的复杂计算和操作,在领域知识图谱中并不罕见。相反,通用知识图谱的查询多为一到两步的邻居查询,相对简单。
2.1 DKG与GKG的关系-联系
现在来看联系,通用知识图谱与领域知识图谱关系是十分密切的,根本原因是人类的知识体系是有结构的。我个人认为人类的知识体系呈现出倒三角形的结构。三角结构越是接近底层的部分越是最为基本的、形式简单的知识;越往上层知识越为抽象、越加多样,也越加细分、专业性越强。在个人成长的早期阶段,人类通过自身身体与世界的交互习得了最为基本的常识,特别是关于时间、空间、因果的基本常识。我们知道时间是在流逝的、我们知道空间是有一定位置关系的、我们明白有因必有果。这些都是最为基本的常识。这些常识是构建认知体系的基础。在此基础上,通过“隐喻”或者“类比”(美国的侯世达教授甚至认为类比是智能的本质,见其《哥德尔、艾舍尔、巴赫》一书),人类发展出更为高层的知识,包括对于世界的知识(比如我们知道太阳从东边升起,人是要呼吸的等等)、简单关联事实(比如下雨了,地面会潮湿)。基于这些简单知识,再通过隐喻和类比,进一步形成特定领域的知识。很多领域知识本质上是通过隐喻从基本知识发展而来的。比如人们关于社会地位的认识,某个人社会地位较高实际上是从空间上的高低隐喻而来的。说某个人很积极、很激进,实际上是从时间的先后隐喻而来的。最近还有一个例子,将各种芯片与人体的各器官相类比:做人工智能的芯片就好比在做大脑,做通用芯片就好比在做血管,做计算芯片就好比在做心脏,这都是典型的隐喻。所以很多领域知识都是从人类的基本常识和世界知识通过隐喻发展而来的。因此,领域知识和通用知识之间存在着千丝万缕的联系。理解自然语言中的隐喻现象也一直是自然语言处理领域的一个研究热点。
2.2 领域行业应用对于知识需求难以闭合
DKG与GKG的另一个联系在于行业应用对于领域知识的需求难以闭合。也就是说,很多行业应用看上去好像只需要领域知识,但是实际应用过程中往往会超出领域所预先设定的知识边界。比如在金融知识图谱落地过程中,本以为涵盖公司、法人、机构、产品等就足够了。但是实际应用过程中我们发现这些类型的知识还远远不够。
比如基于金融知识图谱的关联分析往往会牵扯出几乎万事万物。诸如龙卷风的气候灾害,会使得农作物产量下降,农业机械的出货量因而就会下降,农机的发动机产量也就相应要下降,从事农机发动机关键部件生产的公司业绩就会下降,相关公司的股票可能就会下跌。这个例子形象地说明几乎一切事物在某种意义下都是跟金融有关系。事实上,一切实体都身处在一个复杂的因果网络中,世界是普遍关联的。这就导致沿着任何一个实体开展关联分析都极为容易超出预先设定的知识边界。因此,行业应用中的知识需求难以封闭于领域知识的边界范围内。换言之,越为封闭的应用场景,机器越容易取得成功。所谓封闭是指一个有限的知识子集足以支撑应用需求。比如,AlphaGo的成功很大程度上得益于围棋游戏规则有限,整个游戏过程不会用到下棋规则之外的知识。但对于星际争霸之类的游戏,机器取得优异成绩就显得较为困难。因为这类策略性游戏所用到的知识类型多样,不仅需要有关排兵布阵、武器应用、战场环境等相关知识,还可能涉及很多与社会及文化相关的知识。智能客服等领域的成功也一定程度上归功于客服知识的相对封闭。所以,领域应用所涉及的知识体系越是封闭,越容易成功。这是在很多领域知识图谱落地过程中选择应用试点时,应该遵循的一个基本原则。
延续上面的分析,进一步可以回答业界十分关心的一个问题:知识图谱在什么样的应用中易于成功?知识图谱落地应用往往遵循一个循序渐进的推进过程。因此,很多行业都希望选取特定场景先行试点,那么选择什么样的场景进行优先验证呢?知识图谱只是整个智能化技术的手段之一。知识图谱不能解决行业的所有问题,那么,某个特定的行业应用到底能否受益于知识图谱技术?这些都是知识图谱的行业应用亟需回答的问题。
我根据前两页内容中观点,给出几个选择依据。
第一、领域知识相对封闭。已经阐明,越是封闭的领域越容易成功。
第二、简单知识与简单应用。何为简单知识?关于知识复杂性的评估实际上是个非常复杂的问题。知识复杂性的内在机理和评测机制是个十分有趣的科学问题。从操作层面来看,可以从特定人群学习某类知识所需要时间来评估。假设我们只考虑完成了基础教育(比如中国的九年制基础教育)的人群。对于不同知识,这一人群学习周期不一。比如,很显然对于某个企业的客服知识,几乎一周简单培训就可以上岗。但是对于治病的知识,即便一个医学院学生可能也要十多年才能掌握。所以,大部分对于人而言简单岗位培训就能胜任的工作,也往往适用于机器,是有可能优先被机器所代替的。还有些应用场景属于知识的简单应用,比如同样是在医疗领域,医院的导诊岗位,就属于医学知识的简单应用。只需要根据症状进行简单的分类,即便不够精准,在具体科室医生治疗时还有进一步纠正的机会。
第三、较少涉及常识。如果领域应用所涉及的知识集中在人类知识结构的上层(也就是专业性较强的知识),较少涉及底层的常识,则相对容易成功。其根本原因在于常识的获取是异常困难的。人类很容易理解常识,但是对于机器而言常识理解却十分困难。我们知道太阳从东边升起,人是两条腿走路的,鱼是在水里游的,而机器很难知道这些常识。因为常识是人类在学龄前通过身体与世界的交互与体验积累而得。我们每个人都理解常识,因而不用挂在嘴边说明,就能彼此理解。因此,文本或者语料中对于常识鲜有提及,常识因而也就无从抽取。常识缺失也就成了知识库、知识工程,乃至整个人工智能的痛点问题。目前机器智能在常识理解方面仍然举步维艰。因此,我认为大量用到常识的应用面临巨大挑战。比如说有公司想做财务报销方面的智能化,此类场景就有可能涉及很多常识。比如半夜12点打出租车,或者说打出租车打了四五个小时,又或者从美国飞到上海只飞了一个小时,这都是有问题的。这些问题我们人类很容易识别,因为都是常识问题,但对机器而言就很困难。还有一个非常典型的大量用到常识的场景就是刑侦智能化。公安人员在破案过程中用到大量常识,嫌疑人往往是基于证据根据常识进行推理而锁定的,因此让机器代替刑侦人员破案仍十分困难。
2.3 DKG与GKG的关系-联系
很多领域知识图谱应用的方案是建立在通用知识图谱基础之上的。GKG对于DKG有着重要的支撑作用。一方面,GKG可以给很多DKG提供高质量的种子事实。这些种子事实可以用做样本指导抽取模型的训练。另一方面,GKG可以提供领域模式(Schema)。领域知识图谱构建时需要花费巨大精力设计领域模式,比如为了构建娱乐领域知识图谱,必须首先明确描述歌手的属性列表(有时又称作template)中应该包括专辑、代表作、签约公司等属性。虽然GKG对于特定领域的实体覆盖率不高,但是通过聚合GKG中所有歌手信息,有关歌手的描述模板基本上已经能够满足初步需要。后续只需要在初始模板基础上逐步完善即可。能否充分利用通用知识图谱对很多领域知识图谱的构建具有重要意义。这就是为什么很多团队不遗余力地做好通用知识图谱(比如我们实验室的通用百科知识图谱CN-DBpedia和通用概念图谱CN-Probase)的重要原因。
领域图谱建好之后又可以反哺通用知识图谱。复旦知识工场实验室就是按照这个思路持续运营多年。我们先通过通用知识图谱为各领域知识图谱构建提供大量的种子事实,使得快速构建很多领域知识图谱成为可能。各领域知识图谱做的很深很细之后,可以反过来补充通用知识图谱。GKG与DKG这种互补形式的架构在很多领域的知识图谱落地中是个非常重要的架构。
3为何需要符号化表示的知识图谱?
知识表示其实一直以来都有两种基本的方式:符号化表示与数值型表示。两者孰优孰劣?各自的适用场景是怎样的?一直是知识图谱落地过程中常被问及的问题。第一种是符号化(Symbol)的表示,比如说PPT左上角的小规模语义网络,表达了约翰给玛丽一本书这样的事实。这个例子中大量的使用了字符、箭头等符号。显然,符号表示形象直观,易于我们理解。人是可以理解符号的,但是没办法理解向量。知识表示还有一种表示是数值化的分布式表示,它是面向机器的。机器是无法“理解”符号的,只能处理数值和向量。分布式表示是将符号知识集成到深度学习框架中的一种基本方式。符号化表示是一种显性的表示,而分布式表示是一种隐性的表示。符号化表示易理解、可解释,而分布式表示是难解释、难理解的。符号化表示的另一优点在于推理能力。比如数学定理证明都是基于符号推理进行的。虽然基于知识图谱的分布式表示,也可以开展一定程度上的推理,但是需要指出的是分布式推理已经很大程度上丢失了知识图谱原有的语义,分布式推理只能推理语义相关性,而无法明确是何种意义下的语义相关。我个人倾向于认为分布式推理离实用还很遥远。如果非要为知识图谱上的分布式推理找到应用场景,那只能作为很多复杂任务的预处理步骤,将明显语义不相关的元素加以剪枝,后续仍需要能够充分利用符号语义的方法进行精准的语义推理。
4为什么需要领域知识图谱DKG
不管是大数据时代还是人工智能时代,都需要领域知识图谱。我曾在《知识图谱与认知智能》这一报告中详细阐述过相关观点。这里补充几个观点。首先,需要知识图谱去构建知识引擎,去释放大数据的价值。很多行业和企业都有数据,都有大数据。但是这些大数据非但没有创造价值,反而成为了很多行业的负担。阻碍大数据价值变现的根本原因在于缺少智能化的手段,更具体而言就是缺少一个能像人一样能够理解行业数据的知识引擎。行业从业人员为什么能理解行业数据进而开展行业工作呢,那是因为行业从业人员具有相应的行业知识。如果把同样的行业知识赋予机器,构建一个行业知识引擎,那么机器也就可能代替人去理解、挖掘、分析、使用数据,可以代替行业从业人员挖掘数据中的价值。简言之,将行业知识赋予机器,让机器代替行业从业人员从事简单知识工作,是当下以及未来一段时间内基于机器认知智能的行业智能化的本质。在行业智能化的实现进程中,通过领域知识图谱对数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,从而实现一个行业知识引擎,实现知识工作自动化,已经成为了行业智能化日渐清晰的一条路径。
伴随着人工智能时代的到来,“智能”机器无处不在,手表、手环、手机、音响、电视、机器人等等都已是随处可见的“智能”实体,这些机器逐步走入人们的生活。但是现在机器普遍不具备人们所期望的智能,与人类智能相比只能算是机器“智障”。机器“智障”的根本原因是这些机器没有一个像人一样聪慧的大脑。事实上,机器最缺的是一个机器智脑。没有这样的智脑,机器只能是一具没有“灵魂”的僵尸。人脑之所以能给人类带来智慧的根本原因在于人脑能够存储知识与利用知识。类似地,机器智脑也需要有知识的充实,才能够形成真正意义上的机器智能。富含各类知识的机器智脑,可以理解人类的语言与行为,能够理解我们所从事的行业工作,从而使得自然人机交互成为可能,使得人机协同混合智能成为可能。最终为机器融入人类社会扫清障碍,促进人机和谐共存。
4.1 将领域知识赋予机器,解放人类脑力
从社会发展的角度来看,可以说将领域知识赋予机器,将是进一步提高机器生产力、释放劳动力资源、降低人力成本的重要技术。伴随着我国人口红利的逐步消失,各行业的人力成本普遍提高,各行业对于机器生产力的提升提出了普遍诉求。伴随着工业4.0的推进以及自动化技术普及,传统实体行业人的体力劳动已经逐步被解放。人力资源成本释放的空间已经逐步从体力劳动转向脑力劳动。当下,人工智能技术给人力成本降低带来的新机遇主要体现在用机器代替人的脑力劳动,特别是各行业的简单知识工作将逐步为机器所代替。机器的记忆几乎是无穷无尽的,机器决策时可以同时考虑数百万变量,机器运算的速度远超人类,所以一旦把行业知识赋予机器,就能实现高度自动化的机器工作。在这一背景下,各行业都走上了智能化升级转型的道路,而实现机器的认知能力是智能化升级转型的基本路径。
4.2 以政府领域知识图谱为例
以政府数据治理为例,在政府领域,由于历史原因,政府各部门的信息系统的建设多是各自为阵,形成了大量的信息孤岛,这就给政府数据价值发挥带来了巨大障碍。这些障碍尤为集中地体现在政府数据治理与应用方面,碎片化数据难以融合、数据共享开放缺乏必要依据、政府决策仍然缺乏来自数据的有效支撑、政府数据的应用模式相对单一。但如果有了领域知识图谱,就可以为数据融合提供元数据,将政府数据融合从繁重的手工整合中解放出来。比如ID与身份证通常指代相同的字段,这样的元数据可以自动建立A数据库中名为“ID”的字段与B数据库中名为“身份证”字段的映射。政府在大力推进政府数据共享和开放过程中,必须确保数据安全。比如个人隐私数据很敏感是不可以开放的,当前拟开放的数据都要经过人工的审慎判断,耗时耗力。但事实上知识图谱可以为政府数据开放提供必要的背景知识。比如如果设定了个人信息是不能开放的,那么个人的住址、出生日期等等都是不能开放的,这可以通过背景知识库自动推断得到。政府数据的决策和分析缺乏可解释依据,这些依据都可以从领域知识图谱里去寻找。当前政府数据的应用多是简单的检索与分析,缺乏基于深度推理的智能应用。而推理需要一个基本的载体,推理载体的天然选择是知识图谱。基于符号化的知识图谱,可以开展有效的深度推理。
5领域知识图谱系统的生命周期?
领域知识图谱系统的生命周期包含四个重要环节:知识表示、知识获取、知识管理与知识应用。这四个环节循环迭代。知识应用环节明确应用场景,明确知识的应用方式。知识表示定义了领域的基本认知框架,明确领域有哪些基本的概念,概念之间有哪些基本的语义关联。比如企业家与企业之间的关系可以是创始人关系,这是认知企业领域的基本知识。知识表示只提供机器认知的基本骨架,还要通过知识获取环节来充实大量知识实例。比如乔布斯是个企业家,苹果公司是家企业,乔布斯与苹果公司就是“企业家-创始人-企业”这个关系的一个具体实例。知识实例获取完成之后,就是知识管理。这个环节将知识加以存储与索引,并为上层应用提供高效的检索与查询方式,实现高效的知识访问。四个环节环环相扣,彼此构成相邻环节的输入与输出。在知识的具体应用过程中,会不断得到用户的反馈,这些反馈会对知识表示、获取与管理提出新的要求,因此整个生命周期会不断迭代持续演进下去。
在整个生命周期中,我认为最重要的是明确知识的应用场景,也就是回答清楚一个问题:利用领域知识解决怎样的应用问题。再根据应用来反推到底需要怎样的知识表示,明确知识边界。在当下的很多知识图谱应用实践中,有一个不好的苗头就是“为了图谱而图谱”。虽然知识图谱是当下的热点技术,尽管每年各行业大量的信息化预算苦苦寻求好的落地项目,尽管资本界热钱涌动寻求好的投资标的,但是不应以知识图谱为名,不应盲目炒作知识图谱技术。
知识图谱技术是当下热点不假,但绝不是万能技术。它能解决的问题是有限的,它的成功应用有着苛刻的条件。需要谨慎选择落地场景;需要客观评估技术成熟度以及技术与应用的适配程度;需要充分考虑资源与收益的平衡等一系列问题。为图谱而图谱,或者仅以图谱为名而行悖图谱之实,对知识图谱产业有百害而无一利。历史上前车之鉴太多了。很多做AI的研究人员与公司,最终落得个“骗子”下场。历史上的AI技术的演进道路呈现出大起大落之势。这一系列现象归根结底是因为人们对于AI预期过高,盲目大规模上线很多知识工程项目,无视应用场景而对知识库盲目求大求全。殊不知人之所以伟大其实就在于任何一个普通人所掌握的知识都可以说是无边无界的。我们现在构建的知识库离机器达到普通人认知世界所需要的水平还十分遥远。知识资源建设可以说是永远在路上,没有最好,只有更好。所以,比较务实的作法是:谨慎选择合适的应用场景,构建满足场景需要的知识资源。这背后体现的也是典型的自下而上的建设思路。大而全、自上而下、运动式知识资源建设(这个经常是国内的典型方式),容易遇到难以逾越的技术瓶颈。一言以蔽之,知识资源建设的基本原则是适度。“适”是指对于特定应用场景的适配,“度”是指合理把控知识的边界与体量。
6DKG中知识如何表示?
我们常用三元组表示领域知识图谱。我想强调一点,知识图谱只能表达一些简单的关联事实,但很多领域应用的需求已经远远超出了三元组所能表达的简单关联事实,实际应用日益对于利用更加多元的知识表示丰富和增强知识图谱的语义表达能力提出了需求。这一趋势首先体现在对于时间和空间语义的拓展与表达方面。有很多知识和事实是有时间和空间条件的,比如说“美国总统是特朗普”这个事实的成立是有时间条件的,十年前美国的总统不是特朗普,十年之后应该也不大可能是特朗普。还有很多事实是有空间条件的,比如“早餐是烧饼与油条”这件事,在中国是这样,但是在西方并非如此,西方的早餐可能是咖啡、面包。从时空维度拓展知识表示对很多特定领域具有较强的现实意义。比如在位置相关的应用中,如何将POI(Pointof Interest)与该POI相关实体加以关联,成为当下拓展POI语义表示的重要任务之一。比如将“邯郸路220号”(复旦大学地址)关联到“复旦大学”是十分有意义的。在互联网娱乐领域,粉丝们往往不仅仅关心某个明星的妻子是谁,可能更关心明星的前任妻子、前任女友等信息,这些应用都对事实成立的时间提出了需求。第二、增强知识图谱的跨媒体语义表示。当前的知识图谱主要以文本为主,但是实际应用需要有关某个实体的各种媒体表示方式,包括声音、图片、视频等等。比如对于实体“Tesla Model S”,我们需要将其关联到相应图片和视频。知识图谱时空维度拓展在物理实现上可以通过定义四元组或者五元组加以实现。跨媒体表示可以通过定义相关的属性加以实现。
知识图谱的语义增强总体上而言将是未来一段时间知识表示的重要任务。知识图谱作为语义网络,侧重于表达实体、概念之间的语义关联,还难以表达复杂因果关联与复杂决策过程。如何利用传统知识表示增强知识图谱,或者说如何融合知识图谱与传统知识表示,更充分地满足实际应用需求,是知识图谱领域值得研究的问题之一。在一些实际应用中,研究人员已经开始尝试各种定制的知识表示,在知识图谱基础上适当扩展其他知识表示是一个值得尝试的思路。
7DKG如何构建?
领域知识图谱的构建是个领域知识的获取过程。这一过程系统性强,涉及众多技术手段。但是其基本流程具有一定共性,如PPT所示。
第一步是模式(Schema)设计。这一步是传统本体设计所要解决的问题。基本目标是把认知领域的基本框架赋予机器。在所谓认知基本框架中需要指定领域的基本概念,以及概念之间subclassof关系(比如足球领域需要建立“足球运动员”是“运动员”的子类);需要明确领域的基本属性;明确属性的适用概念;明确属性值的类别或者范围。比如“效力球队”这个属性一般是定义在足球运动员这个概念上,其合理取值是一个球队。此外,领域还有大量的约束或规则,比如对于属性是否可以取得多值的约束(比如“奖项”作为属性是可以取得多值的),再比如球队的“隶属球员”属性与球员的“效力球队”是一对互逆属性。这些元数据对于消除知识库不一致、提升知识库质量具有重要意义。
第二步是明确数据来源。在这一步要明确建立领域知识图谱的数据来源。可能来自互联网上的领域百科爬取,可能来自通用百科图谱的导出、可能来自内部业务数据的转换,可能来自外部业务系统的导入。应该尽量选择结构化程度相对较高、质量较好的数据源,以尽可能降低知识获取代价。
第三步是词汇挖掘。人们从事某个行业的知识的学习,都是从该行业的基本词汇开始的。在传统图书情报学领域,领域知识的积累往往是从叙词表的构建开始的。叙词表里涵盖的大都是领域的主题词,及这些词汇之间的基本语义关联。在这一步我们是要识别领域的高质量词汇、同义词、缩写词,以及领域的常见情感词。比如在政治领域,我们需要知道特朗普又被称为川普,其英文简称为Trump。
第四步是领域实体发现(或挖掘)。需要指出的是领域词汇只是识别出领域中的重要短语和词汇。但是这些短语未必是一个领域实体。从领域文本识别某个领域常见实体是理解领域文本和数据的关键一步。在实体识别后,还需对实体进行实体归类。能否把实体归到相应的类别(或者说将某个实体与领域类别或概念进行关联),是实体概念化的基本目标,是理解实体的关键步骤。比如将特朗普归类到政治人物、美国总统等类别,对于理解特朗普的含义具有重要意义。实体挖掘的另一个重要任务是实体链接,也就是将文本里的实体提及(Mention)链接到知识库中的相应实体。实体链接是拓展实体理解,丰富实体语义表示的关键步骤。
第五步是关系发现。关系发现,或者知识库中的关系实例填充,是整个领域知识图谱构建的重要步骤。关系发现根据不同的问题模型又可以分为关系分类、关系抽取和开放关系抽取等不同变种。关系分类旨在将给定的实体对分类到某个已知关系;关系抽取旨在从文本中抽取某个实体对的具体关系;开放关系抽取(OpenIE)从文本中抽取出实体对之间的关系描述。也可以综合使用这几种模型与方法,比如根据开放关系抽取得到的关系描述将实体对分类到知识库中的已知关系。
第六步是知识融合。因为知识抽取来源多样,不同的来源得到的知识不尽相同,这就对知识融合提出了需求。知识融合需要完成实体对齐、属性融合、值规范化。实体对齐是识别不同来源的同一实体。属性融合是识别同一属性的不同描述。不同来源的数据值通常有不同的格式、不同的单位或者不同的描述形式。比如日期有数十种表达方式,这些需要规范化到统一格式。
最后一步是质量控制。知识图谱的质量是构建的核心问题。知识图谱的质量可能存在几个基本问题:缺漏、错误、陈旧。先谈知识库的缺漏问题。某种意义上,知识完备对于知识资源建设而言似乎是个伪命题,我们总能枚举出知识库中缺漏的知识。知识缺漏对于自动化方法构建的知识库而言尤为严重。但是即便如此,构建一个尽可能全的知识库仍是任何一个知识工程的首要目标。既然自动化构建无法做到完整,补全也就成为了提升知识库质量的重要手段。补全可以是基于预定义规则(比如一个人出生地是中国,我们可以推断其国籍也可能是中国),也可以从外部互联网文本数据进行补充(比如很多百科图谱没有鲁迅身高的信息,需要从互联网文本寻找答案进行补充)。其次是纠错。自动化知识获取不可避免地会引入错误,这就需要纠错。根据规则进行纠错是基本手段,比如A的妻子是B,但B的老公是C,那么根据妻子和老公是互逆属性,我们知道这对事实可能有错。知识图谱的结构也可以提供一定的信息帮助推断错误关联。比如在由概念和实例构成的Taxonomy中,理想情况下应该是个有向无环图,如果其中存在环,那么有可能存在错误关联。最后一个质量控制的重要问题是知识更新。更新是一个具有重大研究价值,却未得到充分研究的问题。很多领域都有一定的知识积累。但问题的关键在于这些知识无法实时更新。比如电商的商品知识图谱,往往内容陈旧,无法满足用户的实时消费需求(比如“战狼同款饰品”这类与热点电影相关的消费需求很难在现有知识库中涵盖)。因此,电商领域的图谱构建要从被动的供给侧构建过渡到主动的消费侧构建,要从管理者视角转变成消费者视角。消费侧的需求充分体现在搜索日志和购物篮中。面向日志、购物篮的自动知识获取将成为研究热点。
经历了上述步骤之后得到一个初步的领域知识图谱。在实际应用中会得到不少反馈,这些反馈作为输入进一步指导上述流程的完善,从而形成闭环。此外,除了上述自动化构建的闭环流程,还应充分考虑人工的干预。人工补充很多时候是行之有效的方法。比如一旦发现部分知识缺漏或陈旧,可以通过特定的知识编辑工具实现知识的添加、编辑和修改。也可以利用众包手段将很多知识获取任务分发下去。如何利用众包手段进行大规模知识获取,是个十分有意思的问题,涉及到知识贡献的激励机制,我前几年有个题为《未来人机区分》的报告,专门讨论如何利用知识问答形式的验证码来做知识获取,可以百度此文获取更多信息。
可以看出,整个领域知识图谱的构建是个系统工程,流程复杂,内涵丰富,涉及到知识表示、自然语言处理、数据库、数据挖掘、众包等一系列技术。也正是这个原因使得知识图谱落地对很多行业或者企业来讲都是一个十分重要的举措,甚至是战略性举措。
8DKG如何评价?
领域图谱的评价标准是落地过程中常常被问及的问题。总体而言有三个方面的指标应该予以充分考虑。第一个是规模。前面已经指出,绝对完备的知识库是不存在的,完备只能相对于一些封闭领域而言。因此,规模一般而言是个相对指标。关于规模问题,在落地过程有两个有意思的问题。一是,当前知识库是否足以支撑实际应用,或者多大规模就够了?这个问题没有绝对答案。我给出的是看实际应用的反馈,也就是知识图谱上线后的用户满意率。比如在利用知识图谱支撑语义搜索方面,多少查询能被准确理解,这个比率是个重要的指标。当然查询理解率不仅涉及知识图谱的覆盖率也关系到理解模型的准确率。因此,在实际评估中需要客观对待查询理解率,不能简单地将查询理解率直接等同于图谱覆盖率。
第二个指标是质量。当前AI系统努力避免的一个事实就是“Garbage-In-Garbage-Out”。喂给机器的是错误知识,就只会导致错误的应用结果。提升知识图谱质量是知识图谱构建的核心命题。那么知识图谱质量又应该从哪些维度进行衡量呢?我想至少有几个维度。一是、准确率。比如是否存在错误事实,错误事实所占比例都是质量的直接反映。二是、知识的深度。比如很多知识库只涵盖人物这样的大类,无法细化到作家、音乐家、运动员这些细分类目(fine-grainedconcepts)。三是、知识的粒度。粒度越细应用越灵活,应用时精读越高。细化知识表示的粒度是领域知识图谱的构建过程中的重要任务之一。
第三个方面是实时。绝对实时是不现实的,因而实时大都从知识的延时(latency)角度进行刻画。短延时显然是我们期望的。知识图谱的更新是个复杂问题,不同的更新策略导致不同的延时。一般而言,知识图谱更新包括被动更新和主动更新两种方式。实际应用中往往是两种策略的结合。被动更新往往采取周期性更新策略,这种策略延时长,适用于大规模知识更新。主动更新,往往从需求侧、消费侧、应用侧出发,主动触发相关知识更新,适用于头部或者高频实体及知识的更新。
由于平台受限无法发布全文,请关注【数智物语】微信公众号,回复领域知识图谱即可查看全文
网友评论