美文网首页
百度集中AI顶尖技术耗费数十个团队只为它

百度集中AI顶尖技术耗费数十个团队只为它

作者: 慕白_简 | 来源:发表于2018-02-01 17:53 被阅读76次
    WechatIMG3.jpeg

    做过在线教育的同学对知识图谱一词肯定不陌生,而学霸们应该对这个也是很有心得,因为掌握了知识图谱,你就形成了自己的知识结构,有了框架,就差填充粮食了。那今天墨白就跟学渣们详细说说知识图谱到底是啥。

    第一、什么是知识图谱

    知识图谱是一个巨大的语义网络,主要由实体/概念及其之间的语义关系组成
    举例如下:图1


    WX20180201-174409.png

    知识图谱的发展史,如图2


    WX20180201-174553.png

    这么说还是有点抽象,再举个实际的例子,你去搜索芳华的电影,得到如下结果


    WX20180201-174419.png WX20180201-174427.png

    第二、常见的知识图谱构建法

    知识点来了。如何搭建知识图谱
    步骤如下:

    1. 数据存储
    2. 知识融合,语义消歧
    3. 实体识别,关系抽取
    4. 各种形式的数据
      下面具体说说
      1、数据存储
      数据形式分为三种
    5. 有结构的数据:例如链式数据,数据库
    6. 半结构的数据,例如网页数据,表格数据
    7. 无结构数据,例如:文本
      如下图


      WX20180201-174437.png
    WX20180201-174444.png

    标题就是文本数据,infobox就是半结构数据

    步骤(搞技术的可以看看)
    1. 基础存储
      a. 可按数据场景选择使用关系数据库、NOSQL数据库和内存数据库
      b. 基础存储保证可扩展,高可用
    2. 数据分割
      a. 属性表:依据数据类型划分
      b. 大属性单独列表:例如数量超过10M的属性单独列表
    3. 缓存与索引
      a. 使用分布式Redis作为缓存,按需对数据进行缓存
      b. 对实体或者关系按需进行索引
    2、数据融合

    比如刘德华跟华仔从语义上来说是一个人。

    3、语义消歧

    苹果表示的是水果还是手机,这个也需要去消除歧义,确定语义

    第三、与知识图谱相关的教育应用

    例1 百度教育平台 如下图
    按照学科,门类,知识点来挂靠资源


    WX20180201-174453.png

    例2 百度智慧课堂

    [图片上传中...(WX20180201-174509.png-f82af8-1517478445146-0)]

    例3 百度文库

    WX20180201-174509.png

    第三、知识图谱如何改善教与学

    现在的教学问题主要有三点

    1. 优质资源匮乏。资源质量低,并且更新速度慢
      a. 解决方案:线上2亿精选教学资源,每日新增10w+,年均增长216%,5w门课程,70w+视频课引入教学相关优质视频课程资源
    2. 资源难以互通。资源地区差异大,同地区资源不互通
      a. 帮助教师的方法:实现版本区分,准确把握不同教材的考点;开展教学空间,实现教材资料的共建共享
      b. 帮助学生的方法:聚合网上资源,帮助学生从多角度理解知识点或考点;资源推荐,帮助学生第一时间获得优质的教学资源
    3. 管理成本高。资源使用情况不明,资源建设方向决策成本高
      a. 帮助管理者结构化管理海量数据
      b. 智能分析学校资源建设的薄弱环节,促进教育资源平衡和决策
      c. 将离散的数据整合到一起,提供更有价值的决策支持
    总结:搭建知识图谱是一个庞大的工程,需要教育专家,技术专家和产品设计的配置,百度教育团队耗费1-2年的时间积累,分教材版本搭建双层知识体系,适合有资金和技术实力的公司来做,打造自己的壁垒,在教育格局尚不明朗时,很少有公司贡献出自己的知识图谱供市场使用,所以自己搭建最稳妥。

    相关文章

      网友评论

          本文标题:百度集中AI顶尖技术耗费数十个团队只为它

          本文链接:https://www.haomeiwen.com/subject/aixjzxtx.html