周末在公众号看了下各个公司做的知识图谱的系统的分享,记录下:
1, 模型层面,多层次+ 业务融合;
美团,服务于自己的新零售, 整个图谱的 schema模型,多层级多维度, 给商品图谱建模的时候,有很多自己的特色;
同样的,熵简科技,做的金融投研的图谱,在建模上和 商品图谱有完全的不同;
从他们的构建模型来看,都是做了 通用层【通用的知识标识层】
以及与业务对应的层次,方便与具体的业务挂钩; 这个在美团的知识图谱构建中做的区分的特别明显;
【分层的概念,我们可以认为是 图谱 中的ER 建模范式;可以很好的构建抽象 和降低数据冗余】
2,工程方面
从市场上的接触来看,对于图谱工程来说,有几个方面;
-
大规模,高并发的 real-time 图谱; 这个尤其是以 支付宝,paypal这种 c端风控应用,对工程要求特别高;
-
大规模-real-time 的实时更新; 阿里文娱团队介绍了他们的图谱,实时大规模更新的;其中他也介绍了他们多业务划分的思路,物理上市一张图,然后做了一个逻辑子图的抽象;
各个业务对应一个逻辑子图;简化了存储,又做到了业务的隔离,值得借鉴,但也引入了应用层的复杂性; -
实时etl,对于金融,事件图谱方面,second-min 级别的图谱更新;
-
图数据库本身的构建,时序图谱的构建;各个厂商说的比较少,基本上纳入到基础能力了;只有paypal在info上说了他们的engine是如何构建的;
3,算法方面;
- 这是各个厂商竞争的重点,基本上都是在用算法辅助工程,做自动化,半自动化的 实体抽取,连接,融合;
- 这里面涉及到了大量的前沿AI+AI工程的东西, 毫无疑问,是目前构建知识图谱系统的核心技术栈;
网友评论