前言:
知识应用的难点在于只是推理,只是推理的难点在于知识表示。因此,知识表示是基于知识的人工智能应用中的核心部分。
知识表示的五个主要角色是:
(1)知识表示是一种代理,基于事务的表示,我们呜呜时间而是通过思考和推理就可以得到有关外部世界的结论;
(2)知识表示是一组本体论约定的集合,说明我们以什么样的方式来思考世界;
(3)知识表示是智能推理的组成部分:推理需要对知识进行表示,但知识表示不是推理的全部;
(4)知识表示是高效计算的媒介:通过对知识进行有效组织,支持高效的推理;
(5)知识表示是人类表达的媒介:基于通用表示框架,方便人们表达和分享对世界的认知。
1. 经典知识表示理论
1.1 逻辑
逻辑本身根据复杂性从简单到复杂分为:命题逻辑、一阶谓词逻辑、高阶逻辑。
命题逻辑吧一个命题看成是一个二值的逻辑变量,具有真和假两种可能。在经典的逻辑学中,一个命题要么真要么假,没有中间状态;但在概率逻辑中,会对这种假设进行松弛,使命题可以以不同的概率处于真和假之间的状态。
如果鲸目中的一类背部有背鳍,那么它是海豚科。
X1=鲸鱼有背鳍; X2=这种鲸鱼属于海豚科
Z1=(X1⇒X2)
谓词逻辑分为一阶为此逻辑和高阶谓词逻辑,主要区别在于是佛可以量化谓词或集合。(高阶逻辑应用少,不做介绍)
一阶谓词逻辑可简称为一阶逻辑,它在命题逻辑的基础上增加了量词的概念。具体地,一阶逻辑的基本语法元素是表示对象、关系和函数的符号,其中对象对应常量符号,关系对应谓词符号,函数对应函词符号。对象是指一些事物的个体或类别,如‘张三’、‘水蜜桃’、‘汤姆科鲁兹’等。关系或谓词是指一种映射,例如‘兄弟’是一个谓词,对于对象‘张三’,兄弟(张三,x)是谓词对对象的操作,其中x可以是张三、李四等一个或多个对象,也可以是空。函词是代表全函数的一种特殊的谓词形式,它要求每一个定义域中的对象具有一个映射值,例如‘国籍’就是一个函词,因为一般情况下每个人都有且只有一个国籍。‘汤姆科鲁兹’是函词‘国籍’定义域中的一个对象,那么谓词逻辑要求国籍(汤姆科鲁兹,x)中的映射必须在值域中。
谓词逻辑相比于命题逻辑的优势是可以表达对象的集合,而不用逐一列举所有对象,它通过量词能够实现对对象集合的描述,一阶谓词逻辑中有2种量词:全称量词(∀)和存在量词(∃)。 举例:∀x 海豚(x)⇒ x有背鳍
1.2 语义网络
语义网络(semantic network)是奎利恩1966年在研究人类联想记忆时提出的一种心理学模型。该模型认为人类的记忆时由概念间的联系实现的。启发他的有两点:一是 人脑记忆的重要特征是人脑中不同信息片段之间的高度连接;二是高度相关的概念能够比不太相关的概念更快地会议起来。
语义网络是一个通过语义关系连接的概念网络,它将知识表示为相互连接的点和边的模式,其中个,节点表示实体、时间、值等。边表示对象之间的语义关系。语义网络本质是一种有向图表示的知识系统,节点代表的是概念,边表示概念之间的语义关系。
语义网络中的关系有很多类型,包括:
(1)实例关系(isA):含义是‘是一个’,体现的是‘具体与抽象’的概念,表示一个事物是另一个事物的一个实例,如:小王是一个人
(2)分类关系(aKO,a kind of):含义是‘是一种’,体现的是‘子类与超类’的概念,表示一个事物是另一个事物的一种类型,如:篮球是一种球。
(3)成员关系(a-member-of):含义是‘是一员’,体现的是‘个体与集体’的关系,表示一个事物是另一个事物的一个成员,如:小宇是一位公务员
(4)属性关系:指事物和其属性之间的关系,常见的属性关系有:have,狗有尾巴;can,鱼能游泳;其他属性,如人的身高、年龄等。
(5)聚合关系,也称包含关系:指具有组织或结构特征的‘部分与整体’之间的关系,如:凳子是桌子的一部分。
(6)时间关系:指不同时间在其发生时间方面的先后次序关系。常见的如‘在前’、‘在后’
(7)位置关系:指不同事物在位置方面的关系,如‘在’、‘在上’、‘在内’等等
(8)相近关系:指不同事物在形状、内容等方面相似或相近,如:狮子和老虎在食物链的位置非常接近。
可以按照论元个数把关系分为一元关系、二元关系和多元关系。一元关系可以用一元谓词P(x)表示,P可表示实体/概念的性质、属性等,如:鸟有翅膀、鱼能游泳。二元关系可用二元谓词P(x,y)表示。其中,x,y为实体,P为实体之间的关系,如‘北京是中国的首都’,可表示为首都(中国,北京)。 多元关系在语义网络中可转化为多个二元关系的组合,然后利用合取把这种多元关系表示出来。语义网络表示多元关系示例图:
语义网络与一阶谓词具有相同的表达能力,不同的是,它用最简单的一种统一实行描述所有知识,非常有利于计算机的存储和检索。语义网络的缺点是,它仅用节点及其关系描述知识,推理过程不想谓词逻辑表示方法那样明了,需要针对不同关系做不同处理,推理方法还不完善。
典型的语义网络,如知网(Hownet),它是一个以汉字和英语的词语代表的概念为描述对象,以解释概念与概念之间以及概念属性之间的关系为基本内容的语言认知知识库/常识知识库。知识是一个系统,是一个包含关系的系统。
值得一提的是:一个人比另一个人有更多知识,说到底是他不仅掌握了更多的概念,而且掌握了更多的概念之间的关系以及概念的属性与属性之间的关系。
1.3 框架
从认知学的角度,框架理论继承了认了认识世界的方式,对现实世界中各种事物,人类都是以一种类似于框架的结构存储在记忆中。 当面临一个新事物是,人就从记忆中找出一个合适的框架,并根据实际情况对框架中的具体值进行填充,填充的部分被称为槽(slot),框架及槽的粒度根据人类对事物认知程度而定。
例如:
框架以强大的结构式表达能力和接近于人类思维过程的特性,被应用于多个领域专家系统的构建以及通用知识的表达,如FrameNet是一个经典的基于框架表示的知识库,它定义了1000多个不同的框架、10000多个词法单元、总计标注了超过150000个例句。
1.4 脚本
脚本是一种与框架类似的知识表示方法,是由Schank等人于20世纪70年代提出的。脚本通过一系列的原子动作来表示事物的基本行为,按照时间顺序描述事物的发生,类似于电影剧本。脚本表示的知识有确定的时间或因果顺序,必须是前一个动作完成后才会触发下一个动作的开始。
脚本用来表示一个动态的过程而非静态知识的表示方法,与框架有着不同的目的。
2. 语义网中的知识表示方法
2.1 语义网表示方法
语义网最初的目的就是为了对万维网的功能进行扩展以提高其智能程度,因为人们也将语义网称为Web3.0。语义网是由万W3C发起的,万维网的创始人Tim Berners Lee期望语义网可以更加有效地组织和检索信息,从而使计算机能够利用互联网丰富的资源完成智能化应用任务。
与框架不同的是,语义网的表示更加灵活,它不需要对具体多个侧面的属性定义另一个框架,而是直接定义属性和属性关系建立他们之间的联系,在拓扑结构上可看成是一个图或网络,这也是语义网名字的由来。
2.2 语义网知识描述体系
语义网知识表示体系主要包括三个层次:
XML,可扩展标记语言,XML 以文档为单位进行表示,不能显示第定义标签的语义约束;RDF,资源描述框架,可看成是XML 的扩展或简化。RDF资源的属性、类的描述,以及类别间一般到特殊的层次结构语义,一起由RDF Schema进行定义;OWL,网络本体语言,owl是本体的语义表示语言,它建立在RDF和RDF Schema的基础之上。owl能够表达本体智慧和刻画属性之间关系(如 逆关系、函数约束、有且仅有等),为了更好的对逻辑和推理进行描述,owl洗后了描述逻辑等逻辑语言。
rdf局限于二元谓词,rdfs则限制于子类和属性层次及其属性的定义域、值域。owl在rdf和refs的基础上定义了自己独有的原,主要包括头部和主题两部分。
头部:owl描述一个本体时,预先制定一系列的明明空寂那,包括:xmlns:owl,xmlns:rdf,xmlns:rdfs,xmlns:xsd等,并使用命名空间中预定义的标签来形成本体的头部。
主题:owl的主题是用来描述本体的类别、实例、属性之间相互观澜的部分,它是owl的核心。
3. 知识图谱中的知识表示方法
表示框架
通常,一个知识本体主要涵盖以下几个方面的内容:
(1)事物;(2)概念;(3)属性;(4)关系;(5)函数;(6)约束;(7)规则;(8)公理
知识图谱用节点对应事物或概念,用边对应它们之间的关系。知识图谱用统一的形式对只是定义和具体实例数据进行描述,各个具体实例数据只有在满足系统约定的‘框架’约束下运用才能体现‘知识’。知识图谱中的知识定义和实例数据及其相关的配套标准、技术、应用系统构成了广义的知识图谱。
狭义的知识图谱可以看成是知识库的图结构表示。本章描述的知识图谱 局限咋现存的具有图结构的三元组知识库上,泛指三元组r(h,t)知识组成的有向图结构。
更具体地,知识库中的实体可作为知识图谱中的界定啊,而知识库中的实时作为知识图谱中的边(包含边两端的节点),边的方向由头实体指向尾实体的,而两实体间的关系类型就作为边的类型。
4. 知识图谱的数值化表示方法等(略)
小结:主要介绍了不同的知识表示方法,主要包括逻辑、语义网络、框架和脚本等方法。以及语义网和语义的背景及知识描述体系,知识图谱的表示和存储等方法大量使用了语义网的标准和体系。
网友评论