领域知识图谱构建方法

作者: 鱿鱼丝炒韭菜 | 来源:发表于2020-07-21 11:17 被阅读0次

方法范文查询
领域知识图谱构建方法
2020-11-02-遗传图谱的基本知识点
知识图谱的推理
最全知识图谱介绍:关键技术、开放数据集、应用案例汇总
2020-01-09
Building Your Own Knowledge Grap
技术 | 知识图谱构建：图情领域
领域（学科）知识图谱构建心得
知识图谱技术解剖

节点表示实体，连边表示实体和实体之间的关系。

实体包括：概念、实例

构建领域知识图谱的四步法：

1）领域本体构建

2）众包半自动语义标注

3）外源数据补全

4）信息抽取

领域本体构建

本体：一种概念化的精确的规格说明；共享概念模型的明确形式化规范说明

构建方法

1）人工（领域专家）构建本体

案例：WordNet

方法：骨架法、TOVE法、SENSUS法、Methontology法、Ontology Development 101法

2）自动构建本体、本体学习

利用知识获取技术、机器学习技术及统计技术从数据资源中自动地获取本体知识

方法：OpenIE

本体学习对象的层次：概念、关系、公理

现状：极少有方法能够得到覆盖率和准确率都表现良好的本体

3）半自动构建本体

构建流程

本体构建的基本原则

也即本体中类的设计的独立性和共享性原则。

独立性原则：类可以独立存在，不依赖于特定的领域。

共享性原则：类可以是共享的，有被复用的可能和必要。

最小化原则：本体中包含的类的数据应尽可能最小化，去除冗余的类。

归纳领域概念

领域的核心概念是领域术语的子集，对应本体中的类（owl:Class），每个核心概念都有许多对应实例。

构建方法：

1）统计法

基本假设：

· 领域的核心概念是领域术语的子集，可通过获取领域术语来获取领域概念。

· 重要术语在领域相关文档中出现的频率相对较高，术语在领域相关文档中出现的频率远高于在普通中出现的频率；

算法：

· TF-IDF：用于评估一个词语对于一个语料库的其中一份文档的重要程度。核心思想是，一个词语的重要性随着它在文档中出现的次数成正比地增加，但同时随着它在语料库中出现的频率成反比地下降。缺陷是没有对有联系的词语进行综合考虑。

· TextRank：核心思想与PageRank算法相同，在词语网络中词语的重要程度取决于与它连接的词语给它的投票数，且票的权重取决于该词语自己的票数。

2）参考高质量的知识图谱或数据源

Schema.org：包含语义信息的被各大搜索引擎所支持的html标签的词汇表。

DBpedia：大规模通用知识图谱

Geonames：每个地名都对应featurecode信息

3）众包半自动语义标注

依据本体构建的基本原则进行修正

定义领域关系及其约束

关系：对领域中的概念、实例之间的相互作用的描述。

关系的重要作用：是本体的核心基本要素；直接决定了知识丰富层级以及基于应用范围。

定义关系的方法

1）OpenIE法：先进行无监督的批量抽取，再进行过滤。

2）参考质量较高的通用知识图谱或数据源：参考其领域概念相关的关系列表及标签

3）根据核心概念和百科信息框来确定关系：通过整合同一概念下多个实例在百科

4）众包半自动补充关系

本体检查

领域专家参与，对本体进行检查评估。

评估内容：核心概念是否合理；每个概念的合理性、必要性，相似概念间的辨析。

语义标注

语义标注：对原始数据做标记，使其包含一定的语义信息，使人和机器都能理解。

存储方式：嵌入式存储、独立存储

标注格式：JSON-LD、MicroData、RDFa

标注工具：Google结构化数据标记辅助工具、开源语义标注工具Pundit

语义标注的种类

类型标注：将文档中与本体中概念相对应的词语标记出来，并将词语作为概念所对应的实例。

关系标注：找出实例之间存在的与本体中关系相对应的关系，丰富实例的内在信息，通常将实例与实例间的关系表示为三元组。

对语义标注系统的需求

1、标注依据：必须能够导入本体描述文件，提供基于本体的语义标注功能。

2、标注对象：支持对文本文件、静态网页、图片等文件的标注

3、标注方式：提供类型标注、关系标注

4、本体语言：支持主流的本体语言，如RDF(S)、OWL、XML、DAML+OIL

5、协同式标注：支持大量人员同时在线标注

6、标注审核：支持用户权限组及控制控制，包括标注人员、审核人员

7、标注溯源：能够追溯到标注来源的元数据信息。通常采用XPointer计算，根据数据在XML文件中的位置、字符内容、属性值等特性进行定位。

8）标注数据存储：可采用Sesame数据库，进行标注数据存储。

9）共指消解：遇到相同的实例时，选择已存在的实例进行标注，从而避免重新生成新的实例造成的实例共指问题。

标注方式

手工标注

定义：标注人员之间将语义数据写入到标注文档中

案例、工具：Semantic Wiki、SHOW Knowledge、OntoMat Annotizer

半自动标注

定义：由标注人员制定网页或网页中的文本片段，然后由标注人员选择合适的本体概念（或熟悉）或者由系统自动显示可选的本体概念（或属性），最后生成并保存语义标注结果。

案例、工具：

· W3C主导的Annotea，基于RDF的语义标注项目，实现了半自动语义标注工具Amaya，必须在客户端软件完成，不适合大规模网页语义标注。

· SMORE

· Pundit：可以满足众包标注过程的标注审核、溯源、共指消解、数据存储

自动标注

定义：标注工具可以按照预定的规则自动产生并保存语义标注信息。

案例、工具：

· AeroDAML：把常见的概念和关系映射到DAML+OIL本体中的类和属性

自动标注的质量很难得到保证。

外源数据补全

定义：外部数据源按照领域本体结构处理后得到的与标注数据结构一致的RDF数据。

Geonames知识图谱

百度百科信息框

中国行政区划信息

国家统计局网站、民政部网站

信息抽取

扩充数据：指的是利用之前得到的标注数据和外源数据，运用机器学习等方法，从文本中抽取的RDF三元组数据。

文本语料：《中国大百科全书》、百度百科、维基百科

实体抽取

实体抽取：也称命名实体抽取，是从文本中自动识别出命名实体

实体集扩充：根据种子实体集，从文本中抽取出相同类别的新实体。采用Bootstrapping方法，根据种子实体从文本中抽取出特征模板，然后利用这些模板从文本中抽取出新的实体，再根据新实体从文本中抽取新的特征模板，反复迭代此过程，但存在语义漂移问题。

方法：词向量法+实体消歧

关系抽取

关系抽取：从文本中抽取出实体和实体之间的关系，将零散的实体联系起来。

基于规则

基于机器学习

多分类问题，采用Bootstrapping、协同训练、标注传播等算法

· 无监督：基于规则的方法（正则模板）、LDA模型（识别文本中隐藏的关系类别信息，用词袋表示每类关系的特征）

· 有监督：将已有的关系数据作为训练数据，从文本中抽取相应的三元组。

· 半监督：基于多语言注意力机制的远程监督方法

属性抽取

属性抽取：从文本中抽取出实体的属性信息（实体和属性间的一种名词性关系，可视为关系抽取问题）

参考文献

《一种准确而高效的领域知识图谱构建方法》

领域（学科）知识图谱构建心得 https://www.jianshu.com/p/f66d7614fb49

网友评论

本文标题：领域知识图谱构建方法

本文链接：https://www.haomeiwen.com/subject/oxughktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！