人的记忆偏重关联
Web:以链接为中心的系统
语义网:从链接文本到 链接数据
知识图谱:2012由谷歌提出,连接在一起的不再是
text
,而是thing
或者叫object
搜索出来的东西,不再仅仅是网页连接,而是一个个对象,与搜索的对象有明确的语义关系 语义分析,结构化搜索,FB的Graph Search
背后需要
知识表示
,知识库
的支持作用:辅助搜索、问答、辅助决策、常识推理
当深度学习遇到知识图谱,从感知、识别、判断进化到了思考、语言、推理
本质
- Web:语义搜索
- NLP:抽取语义和结构化数据
- KR:用计算机符号表示和处理知识
- AI:辅助理解人的语言
- DB:用图的方式存储知识
典型知识库项目
CYC 常识知识库 term
+assertion
Wordnet:词典数据库,只要用于语义消歧
ConceptNet:常识知识库,三元组形式
Freebase:免费,允许商业化
Wikidata:目标是构建全世界最大的免费知识库
DBPedia:早期的语义网项目 30亿RDF三元组
Yago集成了Wikipedia, WordNet, GeoNames的数据,考虑了时间和空间知识, 1.2亿条三元组
Babelnet类似于WordNet,目标是解决多语种问题
NELL采用互联网挖掘的方法从WEB自动抽取三元组
微软Concept Graph以概念层次体系为中心的知识图谱
OpenKG.cn中文知识图谱资料库
zhishi.me
知识图谱的技术体系
把不同来源的数据通过各种技术手段(图中黑框字)形成知识图谱数据
- KBP: knowledge base population
- D2R: database to RDF (三元组 triple based assertion model)
知识表示
用计算机符号表示人脑中的知识,以及通过符号之间的运算来模拟人脑的推理过程。最早是基于数理逻辑,现在是基于向量空间学习的分布式知识表示
三元组
主谓宾RDF
RDF Graph
RDFS
在RDF的基础上增加词汇量,增加约束Class, subClassOf, type, Property, subPropertyOf, Domain, Range
OWL
基于RDFS
complex classes, property restrictions, cardianlity restrictions, property characteristics
SPARQL
RDF的查询语言
知识图谱的分布式表示 KG Embedding
知识抽取 NLP+KR
抽取方法
- 正则
- 模板匹配
- 规则约束
- 知识挖掘
- SVM CRF LSTM
- 训练
知识存储
多为混合存储模型 关系型 非关系型 图存储
知识问答
KBQA
knowledge-based question answering
知识推理
知识融合
对不同数据集中的实体信息进行整合,形成更加全面的实体信息
典型工具:
- Dedupe
- LIMES
知识众包
Wikibase
Schema.ORG
典型案例
略
网友评论