在「人工智能教育」相关概念的文章中,「知识图谱」是个常见关键词,顾名思义脑海中会浮现类似「知识点像被挂在地图上」的场景。本文有三个观点:
- 知识图谱能够可视化告知我们「掌握了哪些内容」并且用于辅助刷题,但这只是最基本的应用。
- 在跨学科学习中,知识图谱可以作为三方面的工具:为同一个问题提供多方面的学习内容选择;基于兴趣和能力,推荐学习路径;在两个知识之间提供可行的学习路径。
- 知识图谱可以基于已经存在业务数据,通过建模、知识获取、知识融合形成,建模是和业务理解最相关的阶段。
可视化的知识图谱
知识图谱比较典型的应用有3种:
- 搜索引擎呈现相关结果:比如你搜索「乔布斯」,页面上会同时呈现其籍贯、生日、关键成就等内容。
- 推理和自动问答:比如问Siri“今天苹果市值多少?”,手机回复你今天苹果的股票市值而不是关于水果的内容。
- 可视化的(学习)决策支持:比如当一名语文教师面对如图的图谱,可以为让不同学生针对性熟悉不同知识点。
可以将「知识图谱」这个概念描述为:描述了不同事物(知识)之间关系的知识库(数据库)。上述的例子中,前两者分别在「乔布斯和相关信息」、「苹果和苹果公司今天的股票」之间建立了关系,最后一者则是描述了语文学科中的知识关联。
目前将知识图谱可视化是教育行业在招生和学习提分环节常用的,比较强用户感知的形式有:
- 告知用户知识图谱和「智能学习」存在关联,形成「大量数据分析学习成果」的用户利益点;
- 在数学、物理等需要刷题提分的学科中,配合知识图谱呈现「个性化制定题库查缺补漏,加速提分」的用户利益点。
作为跨学科学习工具的知识图谱
大量真实世界中的问题是难以依靠一个学科搞定的,这就是为什么跨学科的学习越来越流行了。那么在面向真实问题的学习中,知识图谱怎么发挥作用?
为解决问题提供可选的资源支持,即告诉学习者「你可以学习这些内容来解决这个问题……」,同时也为教师提供了开课的内容指南。
比如期望学生以“和爸妈一起去旅行”为主题进行学习,输出一份游记或者计划书。我们可以发现这能够成为一次包含了物理、数学、语文、美术学科知识的学习,学习活动沿着部分内容展开即可,比如「结合行程问题说明自己对于交通时间的规划」、「练习在计划书中清晰表达交通安排」,知识图谱在这里提供了多样化的内容。
同样在这个图谱中,可以依据学习者的兴趣和能力推荐学习路径:比如数学老师如果以「下一次旅行中的交通时间计算」作为引入,就是从图谱中的「时间规划」自然切入到「行程问题」,自然是一个接地气课堂开场。
学习者倾向于解决感兴趣、和自己有关系的问题,这就是为什么很多教师需要以孩子看到动漫、游戏、实际生活中的场景来开场,算是一种依据学习者情况制定学习路径的策略。
「我知道两个相互独立的知识,但不知道怎么将其联系到一起」是一种更普遍的情况,很多人从大学开始完成大作业到进入社会经常遇到这样的状况,在尝试一个新领域的时候,大量的时间要花在「确定应该学什么、怎么学」上。
想象存在一个知识图谱能够为学习者提供可行的路径:你现在掌握了A 点,但仰着C点和D点,我们能够将原有的经验和技能迁移扩展,直至到达D点。
听起来知识图谱更像画关系图?试着理解一个可应用的知识图谱产品怎么做出来的。
step 1:知识建模
先来理解「知识」在计算机系统里是怎么回事?
RDF,资源描述框架(Resource Description Framework) 是最简单一个单位,每一条RDF 知识都可以用一条主谓宾语句来描述,比如「牛顿是物理学家」,「牛顿」和「物理学家」是两种实体,「是」在这里代表归属的概念,表明了两个实体的关系。
知识最终将以标准化的形式(比如最常见的 RDF)存储在计算机中,可以理解为是一个记录了不同单元格之间关系 Excel 表(数据库)。
选择哪些实体、数据的分类层级(比如学科知识中常见的包含关系)、约束(明确属性和异常值)、有哪些关系类型,这是在在前期需要根据业务来进行定义的内容。
在这里「关系类型」类似在开发软件后台时候使用的「字段」,是在前期特别重要的字段,决定了图谱的基本结构。比如这个李白的知识图谱中,蓝色的「主要作品」、「作者」、「包含」就是基本的关系类型。
step 2:知识获取
这个过程可以理解为抓取数据,让其具备结构化属性:
- 已有的结构化数据(比如公司数据库中的JSON):通过已有规则直接转化关系型数据库为知识图谱;
- 只是部分结构化的数据:通过爬虫等方式,针对有一定结构规律的呈现信息的不同网页和媒介进行抓取,构建知识图谱;
- 开放性的数据:通过不同技术来完成解析原有数据中的关系,比如针对一本书的内容进行自然语言处理,读取知识。(同样,针对图片、PDF、音频等媒介,也有类似的处理方式)
step 3:知识融合
处理过的数据进行预处理、计算和归类
- 链接实体:主要是把已有的知识实体合并
比如这句话「相比于若干年前的他,乔布斯已经更加成熟,乔布斯本人也认可这一点」中的「乔布斯」「乔布斯本人」「他」都链接到「乔布斯」这一实体中。
- 做知识合并(不同数据库合并)。
- 知识加工:评估知识的数量与调整。
独立的知识在一定路径的学习过程中建立了关系,能够形成经验,没准还能呈现出创造力来。
部分配图来自清华大学的基础教育知识库 http://kb.cs.tsinghua.edu.cn/
网友评论