#文献参考
* [1] [《领域本体的构建方法研究》——马文虎(CSDN)](https://blog.csdn.net/u013263092/article/details/46327689):比较完整的概述
* [2] [本体的具体例子——贺易之(知乎)](https://www.zhihu.com/question/19558514/answer/65479687):比较具体的介绍
* [3] [实践篇(一):数据准备和本体建模——SimmerChan(知乎)](https://zhuanlan.zhihu.com/p/32389370):建立本体的实例,以自顶向下的方式构建本体结构。使用的数据为电影相关,工具为protégé。
* [4] [本体和知识图谱学习(CSDN)] (https://blog.csdn.net/Solitarily/article/details/78768139)
* [5][知识图谱基础之RDF,RDFS与OWL——SimmerChan(知乎)](https://zhuanlan.zhihu.com/p/32122644)
#本体概述
##本体
###定义
本体是用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础[1]。
也可以说,本体定义了组成「主题领域」的词汇表的「基本术语」及其「关系」,以及结合这些术语和关系来定义词汇表外延的「规则」[2]。
比如(例子并不完整):
1. 领域:「大学」;
2. 基本术语: 「教工」、「学生」、「课程」等等概念
3. 关系:大学师生员工中包含了教工和学生,学生又可分为本科生和研究生,教工同理,而学生和教工是两个并列的概念。
4. 词汇表外延的规则:包括属性(例如X教Y)、值约束(例如,只有教职人员才能授课)、不相交描述(例如,教职人员和普通员工不相交)、对象间逻辑关系的规定例如(例如,一个系至少要有10个教职员工)。
###构成
本体的构成应该包括3个要素:核心元素集、元素间的交互作用以及这些元素到规范语义间的映射关系,但在实际中没有统一的定义。
Perez等人用分类法组织了Ontology,并归纳出本体的五个基本构成元素:
1. 类(Classes)或概念(Concepts);
2. 关系(Relations);
3. 函数(Functions);
4. 公理(Axioms);
5. 实例(Instances)。
从语义上讲基本的关系共有4种:part-of,kind-of,instance-of,attribute-of(详见[1])。
在实际建模过程中,不一定要严格地按照上述5类基本建模元语来创建Ontology,概念之间的关系不限于上面列出的4种基本关系,可以根据领域的具体情况定义相应的关系,以满足应用的需要。
###分类
根据本体对领域的依赖程度由高到低可分为四个类别:
顶级本体(top-level Ontologies)、领域本体(domain Ontologies)、任务本体(task Ontologies)和应用本体(application Ontologies)
##本体的构建语言
简单把它们归类如下:
(l)基于Web的本体语言(也叫做本体标记语言)有:RDF和RDF-S,OWL,SHOE,XOL。其中RDF和RDF-S,OWL,XOL之间有着密切的联系,是W3C的本体语言栈中的不同层次,也都是基于XML的。而SHOE是基于HTML的,是HTML的一个扩展。
(2)基于AI(Artificial Intelligence)的本体实现语言有:KIF,Ontolingua,Cycl,Loom,OCML,Flogic。KIF己经是美国国家标准,但是它并没有被广泛应用于互联网,作为一种交换格式更多的应用于企业级。[1]
###简介几种语言[4]
* XML : 为结构化文档提供一种表层语法,但没有对这些文档的含义提供语义约束。
* RDF:资源描述框架(Resource Description Framework, 简称 RDF):是一个用于表达关于万维网(World Wide Web)上的资源的信息的语言. 它专门用于表达关于Web资源的元数据, 比如Web页面的标题、作者和修改时间,Web文档的版权和许可信息,某个被共享资源的可用计划表等。
* OWL:网络本体语言 (Ontology Web Language,OWL):旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。
Owl是基于RDF基础之上的,而RDF是建立在XML之上的。在[5]中有详细介绍。
##本体的编辑工具
第一类包括Ontolingua、OntoSaurus、WebOnto等。这三个工具的共同点是,都基于某种特定的语言,并在一定程度上支持多种基于AI的本体描述语言。
第二类包括Protégé系列、WebODE,OntoEdit,OliEd等。这些工具最大的特点是独立于特定的语言,可以导入/导出多种基于Web的本体描述语言格式(如XML,RDF(S),OWL等)。
Protégé具有图形化的用户界面,操作简单便捷,提供详细的帮助文档,支持模块化设计。并且支持DAML+OIL和OWL语言,可利用RDF、RDFS和OWL等本体描述语言在系统外对本体进行编辑和修改。Protégé由于其开放源码、支持中文编辑而深受国内学者青睐。但protégé最大的缺陷在于不能批量导入数据,构建大规模本体费时费力,手工输入错误率比较高,效率较低。
##本体研究现状
国内外重要的本体系统典型代表有:WordNet、FrameNet、SENSUS 、OntoSeek 、Cyc 、GUM通用上层模型(Generalized Upper Model)、HowNet、Mikrokmos等。
#本体构建
##构建方法
目前本体构建主要有手工构建、复用已有本体(半自动构建)以及自动构建本体三种方法,基于人工智能的半自动化及自动化本体构建方法的方法虽然节省了效率,但遗憾的是也没有达到本体方法学的标准,所以建立本体大部分还是采用手工编辑方式。
###现有本体构建方法
目前具有代表性的本体构建方法有骨架法、IDEF5法、七步法、五步循环法、METH-ONTOLOGY法、TOVE法、KACTUS法、SENSUS法和循环获取法。
###介绍一个七步法:
斯坦福大学医学院开发的七步法,主要用于领域本体的构建。七个步骤分别是: ① 确定本体的专业领域和范畴;② 考查复用现有本体的可能性;③ 列出本体中的重要术语;④ 定义类和类的等级体系(完善等级体系可行的方法有:自顶向下法、自低向上法和综合法);⑤ 定义类的属性;⑥ 定义属性的分面;⑦ 创建实例。
###考虑复用现有的本体
本体的主要作用就是解决知识的共享和重用问题。所以在设计和建立自己的领域本体之前,应该考虑重用已经存在的本体。
目前可复用的本体资源主要有:① 叙词表资源,如中国农业科学叙词表、国防科学技术叙词表等;② 顶级本体,如Cyc、SUMO、WordNet、FrameNet等; ③ 数据库资源;④ 在线本体库,如Ontology Engineering Group 和DAML。
网友评论