一、中文知识图谱的构建
前情提要
- 知识图谱的本体学习
- 术语抽取
- 同义关系学习
- 概念概念
- 分类学关系学习
- 非分类学关系学习
- 公理和规则
- 实体层学习
- 实体学习
- 实体数据填充
- 实体对齐
![](https://img.haomeiwen.com/i7785043/957adaf9c98e4123.png)
(一)、通用知识图谱的构建
通用知识图谱可用数据源
- 结构化数据
- 机器可读的开放本体和词典
- 开放链接数据和开放知识库
- 行业知识库好行业垂直网站
- 在线百科(维基、互动、百度)
- 文本
通用知识图谱构建过程
(1)概念和实体的学习
-
从百科中抽取概念和实体
-
位于分类系统中的类别标签都直接视为概念
-
其他类别标签也是概念的候选,但是不能直接选取为概念:(空类别标签、仅包含自己的类别标签):出现在两个或三个百科中
-
从上下位关系层次中抽取概念:当把最终得到的上下位关系组织成一个类别系统时,不是位于最低层(椰子结点)的均视作概念
-
-
摘要信息
(2)实体对齐(同义词关系学习)
因为百科等平台是多人编辑的,就存在一些同义词需要去重
- 从开放链接数据中抽取同义关系
- 使用特定方式描述同义关系:“means” 、“owl:sameAs”。
- 同一百科中的实体对齐
- 重定向
- 信息模块:中文别称、别名
- 不同百科间的实体对齐
- 名称匹配
- 基于语言学模式方法
- “X又名Y”、“X别称Y”
- 基于SVM的自监督百科实体对齐方法(百科间实体)
- 基于CRF的开放同义关系学习
(3)上下位关系学习
- 从开放数据集中抽取上下位关系
- 按照数据集编写相应的规则
- 百科中抽取上下位关系
- 类别之间(概念层次关系)
- 类别和文章之间(实体与概念的从属关系)
- 基于语言学模式的上下位关系抽取
- 固定的语言模式用于描述上下位关系
- “X是一种Y”、“X如Y、Z等”
- 基于CRF的开放上下位关系学习方法
(4)属性学习
- 概念的属性学习
- 编写相应的规则从开放链接数据集中获取属性
- 从百科实体的属性往上规约
- 人工检验
- 从百科中抽取实体属性
- 信息模块
(二)、行业KG的构建
- 构建方法的概述
- 自顶向下和自底向上两种方式相结合
- 从结构化的关系数据库中的信息为起点,进而扩展到非结构化数据
- 人工编辑数据模式
可用数据源
- 从结构化数据中学习(D2R)
- 现有工作
- D2RQ:描述关系数据库的数据模式与RDF模式及OWL映射关系的声明式语言
- D2R Sever:把关系数据库中的数据发布到语义网中
- 不足:只完成虚拟和映射,不生成具体的RDF数据;需要掌握RDF和SPARQL知识,使用门槛高
- D2RML
- 使用XML描述,易于理解和使用
- 不需要掌握RDF和SPARQL知识,降低了使用门槛
- 现有工作
- 行业数据源解析
- 行业网站中大都通过模板来生成
- 为保证准确度,使用人机结合的半自动解析方法
- 首先使用聚类算法对页面依据结构进行归类
- 机器自动构建模板,人工进行模板核验
- 从开放链接数据和百科中学习知识
- 开放链接数据、知识库、百科和文本仍然是行业知识图谱的重要数据来源
- 从文本中学习知识
- 与通用知识图谱学习类似(基于规则+人机交互)
二、KG的产业化应用
知识图谱图书馆应用
- 可视化知识图谱编辑器
- 知识抽取和学习
- 近4千万书籍论文实体链接
专利图谱应用
- 海量专利文档图谱语义化检索
- 专利大数据语义检索
- 专利图谱关联分析
企业图谱应用
-
全国3千万企业360°全息画像
-
完整的企业社交谱系
-
客观的企业风险评价和财务实力洞察
-
已应用于券商、银行、P2P等等追踪企业动态的场景
![](https://img.haomeiwen.com/i7785043/2e2dec52d88dc89e.png)
三、总结和展望
使用KG对现有的知识及关系进行整理融合形成一个新的组织形式。
(本文根据上海海翼知信息科技有限公司 胡芳槐讲座整理)
网友评论