一、什么是知识图谱?
解释一:知识图谱本质上是语义网络,本体论是语义网络一个最为重要的要素
解释二:知识图谱也叫多关系图,由多种类型的节点和多种类型的边来组成
解释三:百度百科解释:
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。
二、构建知识图谱所需要的技术:
1.数据获取:
(1)数据爬取(爬虫)
(2)数据库读取
2.数据预处理
(1)数据清洗
(2)知识抽取(公开,半公开数据,例如:邮箱等),消歧分析(填写申请表用不一样的方式填写公司名字)等
3.导入数据到知识图谱
(1)数据筛选(决定哪些数据需要到知识图谱系统,性能,业务要求)
(2)知识图谱设计(本身设计,类似mysql数据库设计,表的改变会影响应用层的改变)
(3)批量导入(初次导入,最大的挑战:数据量比较大时的效率)
(4)增量导入(上线以后导入)
4.应用层的搭建
(1)各类模型搭建(风控模型)
(2)GraphX分布式处理(sparkX)
(3)微服务(springcloud)
三、知识图谱常见应用场景
1.风控知识图谱,用来做风险控制,对于线上贷款的公司来说,最大的诉求点就是风控,需要准确的判断一个人的风险有多大,才能做出要不要给这个人贷款的决定。
微信截图_20181106172306.png
知识图谱最大的作用在于可以从关系的角度去分析问题,从而找到潜在的风险,比如可以用上图去挖掘一些团体欺诈,这样的欺诈其实光从一个审核人员的角度是很难去发现的。
2.证券知识图谱:
当我们去买股票的时候,经常关心这样的问题,比如一个事件发生了可能会影响那些股票上涨或者下跌。这个问题的本质就是我们需要分析一个事件和一支股票或者公司之间的关系,这种关系可以从图谱里挖掘出来。
再比如一个股票上涨了有哪些股票也会随之上涨,这跟问题的本质是我需要分析公司与公司之间的关系。
微信截图_20181106180025.png
3.教育知识图谱
用知识图谱刻画知识点之间的关系:如上图。线性回归的后续知识是逻辑回归。
其他领域:
1.搜索
2.聊天机器人
3.法律
4.医疗
知识图谱还处在比较初级的阶段,还有许多领域需要我们去挖掘探索。
4.知识图谱架构图:
数据源
1.授权数据,用户允许我们抓取的数据(爬虫)
2.公开数据(爬虫)
3.三方数据(API)
4.业务数据,用户填写到业务系统的数据(mysql)
mysql binlog ---》实时处理与离线增量导入架构
Canal server -> Canal Client -> Kafka Producer - > neo4j
数据初始化 mysql ->APOC
Resutful API
Spark 、GraphX
算法相关的工作
设计Neo4J
网友评论