随着近年来大数据和人工智能技术的不断发展,知识图谱技术也得到了长足的发展,越来越多的人参与进来构建专业领域或者通用的知识图谱技术。但是从目前发表的文章来看,知识图谱在教育领域特别是K12教育领域研究与应用较少。本文旨在梳理知识图谱技术的来龙去脉,并对其在K12教育中的应用场景提出设想。
1、知识图谱概述
(1)什么是知识图谱
首先来看一下这个名字:里奥·梅西。熟悉足球的朋友看到这个名字就能想起许许多多的相关词语,比如:巴塞罗那,阿根廷,C罗,内马尔,球王,金球奖,世界足球先生等等。
我们来将联想到的这些词语进行分类,第一类:巴塞罗那,阿根廷;第二类:C罗,内马尔;第三类:球王,金球奖,世界足球先生。我们用下图来表示一下这些词语间的关系。
第一类和第二类词语都是与梅西有关系的实体,第三类词语是梅西的属性词语。但是这些词语之间还存在着关系,例如C罗也被成为球王,也是世界足球先生等。
通过上述例子可以说明现实世界中的知识是交叉在一起的,组成了一个非常复杂的网络。知识的组织形式不是单一的线性或者树状结构。知识图谱就是表示知识之间的结构关系的一系列的图形,知识图谱利用了可视化技术描述知识资源及其载体,为知识的挖掘、分析等奠定基础。知识图谱的这种复杂结构才能真正描述出实体与属性、实体与实体等之间关系。在最近召开的世界人工智能大会上,百度副总裁王海峰提出:人工智能要在行业中得到应用的先决条件,首先要对行业建立起认知,只有理解了行业和场景,才能真正智能化。说白了,就是要建立行业知识图谱,才能给行业AI方案。因此建立起K12教育阶段的知识图谱才是K12教育行业向AI转型的基础。
(2)知识图谱的理论基础
知识图谱是交叉学科的产物,在技术层面主要是数学、图形学、信息可视化技术、信息科学等学科的交叉产物。但是究其本质知识图谱是人类哲学思想的一次进步,是符号主义发展的产物。从符号主义的观点来看,知识是信息的一种形式,是构成智能的基础,知识表示、知识推理、知识运用是人工智能的核心,知识可用符号表示,认知就是符号的处理过程,推理就是采用启发式知识及启发式搜索对问题求解的过程,而推理过程又可以用某种形式化的语言来描述,因而有可能建立起基于知识的人类智能和机器智能的同一理论体系[1]。
2、知识图谱构建过程[2]
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工。
(1)信息抽取
信息抽取主要是为了从海量数据中抽取出有用的知识单位。其中的关键技术包括:实体抽取、关系抽取和属性抽取。
实体抽取也称命名实体识别,是指从文本数据集中自动识别出命名实体。主要方法有启发式算法、基于统计机器学习方法(KNN算法+CRF模型)、开放域的信息抽取方法(层次结构的命名实体分类体系)等。
关系抽取是从海量信息中抽取出实体之间的关系。主要方法有模式匹配、基于统计机器学习方法(Bootstrap算法的半监督学习方法、基于Bootstrap的协同训练方法、无监督学习方法)、面向开放域的方法(OIE、WOE)等
属性抽取的目标是从不同信息源采集特定实体的属性信息,例如昵称、生日、国籍等,实现对实体属性的完整勾画。
(2)知识融合
知识融合包括两部分内容:实体链接和知识合并。知识融合的目的是消除概念的歧义,剔除冗余和错误概念,从而保证知识的质量。
实体链接是指从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
知识合并是指将已经抽取出来并相称完整链接的新图谱合并到以前的图谱结构中。
(3)知识加工
事实本身并不等于知识,想要最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括3方面内容:本体构建、知识推理和质量评估。这三方面的内容主要是通过计算机自动推理和人工审核结合的方法对形成的知识图谱进行审核,以形成真正意义上的知识。
在K12教育领域,知识较为单一,大量的文本数据比较少,所以想要实现计算机自动抽取形成知识图谱的方式构建知识图谱不太现实。从目前已经发表的文献来看,K12教育阶段的知识图谱构建形式还处于完全人工建设阶段。本文认为K12教育阶段的知识图谱建设也应该遵循信息抽取、知识融合以及知识加工这三个步骤,但是在自动化程度上比较低一些,可以采取半自动化的程序,先以计算机抽取出来的结构为基础,通过专家经验法对结果进行修正、完善,最终形成形成完整的知识图谱。
3、知识图谱的应用场景
(1)知识库建设
知识库是K12教育行业中最重要的基础资源库,所有的应用开发都要建立在知识库的基础上才能进行。知识图谱可以作为知识库的内容组织框架结构,将各类资源链接到相应的知识图谱节点上,从而为应用的进一步开发奠定基础。
(2)自适应学习
自适应学习就是通过算法,将获取到的学习者的数据分析反馈给已有的知识图谱,为学习者提供个性化难度和个性化节奏的课程和习题等,从而提高学习者的学习效率和学习效果。
自适应学习与传统教学的不同在于主要教学方式不同:传统教育通常是以班、组为单位的,由老师提供统一的教学内容和进度安排的,学生的练习和需要做的测评也都是统一化的,而自适应教育是以个人为单位的,接受不同的学习进度和学习内容,练习与测评内容的个性化程度高。
(3)虚拟学习助手
虚拟学习助手是指为学习者提供陪练答疑、助教等服务,虚拟学习助手能够低成本为学习者提供个性化的服务,并且又能获得大量用户数据反馈。及时反馈学生练习后的结果对于学生成绩提高非常有效果,并且练习环节也是最容易获取学生各种行为数据的环节,因此这也是大部分AI教育应用开发的切入环节。
(4)专家系统
专家系统是指,在某个领域能够有效地运用数字化的经验和知识库,解决以往只有专家能够解决的复杂问题。专家系统结合了人工智能和大数据,具备自我学习和综合分析的能力,系统可以获取、更新知识,不再只是静态的规则和事实[3]。专家系统可以为学生提供职业生涯规划、自动作业批改和心理咨询等服务。
[1]https://baike.baidu.com/item/%E7%AC%A6%E5%8F%B7%E4%B8%BB%E4%B9%89/10570834
[2]https://blog.csdn.net/qq547276542/article/details/78386628
[3]http://www.sohu.com/a/219344565_505870
网友评论
假设我把知识图谱想象成一张世界地图,我现在作为一个学习者,就站在某一个经纬度节点上。固然我们可以拿着地图,跟着指引更快地走到我们想去的目的地。只要地图建得足够好,我们可以用更快的速度到达终点。那会不会有些路就越来越多人走,有些路会越来越少人走?以及,就像我们目前观察到的,有些人因为太依赖手机地图,丧失了空间感以及探索的勇气,手机没电的时候就迷路了。
我的疑问在于,知识图谱从长远的意义来看,是帮助人类更好地学习的吗?
还是,只是为了方便某些教育者更好地教而已?