乌明捷
毕业于 上海交通大学计算机专业。从事企业级软件领域销售及市场管理工作近20年,在企业数据治理、应用及数字化转型方面具有丰富的经验,对大数据时代的行业发展拥有独到的见解。在加入TigerGraph之前,是Tableau软件公司中国公司创始员工之一。曾担任中国惠普、赛门铁克、甲骨文(软件)等企业客户部门业务负责人。
在9月7-8日第二届CTDC首席技术官领袖峰会上,乌明捷为大家带来了《释放互联数据力量,助推智能新未来》的主题演讲。。
以下为演讲内容整理(有删减)
今天是一个CTO的会,这个会议的主题讲的是AI,AI最早我们可以追溯到其实是图灵博士讲的一句话,他一直在问的一个问题,机器是不是真的可以像人一样去思考,有没有人知道这句话他什么时候说的?现在是2018年,这句话他是在1950年的时候,差不多是60年之前,他提出这句话,其实人工智能不是今天才有,一直都在做,然后人工智能经历了好几代的发展,到了2018年,到了我们现在,人工智能和以前有一些什么东西?这两年非常热,为什么它又变得热到了一个新的高度?其实大家都知道,我们现在到了移动互联网的时代,我们一直讲大数据,这张图也是蛮有名的一个,有人统计了这个叫一分钟在世界上会产生多少数据。
我有接触过很多我的客户,现在企业里面多多少少都有建数据仓库,大数据平台,数据的容量从几百G到几个T,甚至有TP的数据,大家都意识到数据一直在产生,还有什么东西现在在发生?我们看到了现在是这个事情,我们产生的数据不再是单独独立存在的,这些数据其实是被高度的关联在一起,然后数据背后包含了非常多的含义,拿这些数据其实现在这一次AI新的浪潮,大家关心的是我们拿这些数据到底可以干什么?在数据的背后到底有一些什么样的东西,刚才有几位分享的嘉宾,他们来自于不同的行业,大家都试图在去用这样的思考解决一定的问题,其实有另外一种解决方式可以解决这样的问题,就是图数据库,我们是图结构的数据库,它只有点和边,现实世界当中的所有实体都可以做成点,然后买卖关系,互相的社交关系可以做成边,它带给我们什么不一样的东西?第一个它让业务问题变得容易理解了,它不再是很多标志间互联关联来关联去,我这里谁买了什么东西就在图上去表达的,连接只是在图上一步一步往前走而已。
企业分析当中还面临一个问题,就是多维的分析,在图上很简单,我只要一条边,不同类型的边就有不同的关系,现在市场非常热的,我们看到很多公司做知识图谱、交易图谱、客户的图谱,大家都在做这样的事情,其实我这边跟大家分享两个东西,这是我们自己做了很多年,我们总结到的东西,我们能够做到两个和以前数据库不一样的东西,第一个这是我的客户问我的,现在我给你两个人,甚至一个人一个地址,一个人一个电话,那我想知道他们俩之间有没有关联,他们有没有可能的关联,在关系数据库里,技术人会告诉你不可能,做不了,他们俩如果有直接关联可以做,如果他们俩共同认识一个人,那他们俩认识的人又认识呢?我们在几乎实时的环境下,我们最远可以做到十层复杂关系的关联,可以告诉你这个人和这个地址,这个人和这个酒店,甚至是两到三个点之间的关系,它能发掘这样的关系。第二个问题其实我们能够做到了,我们客户经常在问的,我给你三十张信用卡的卡号,我有所有他们交易的数据,我想知道这三十个用卡人当中谁是最有影响力的人,如果要去抓反欺诈集团,就要找到核心的人,哪一个是,图可以很快的,几乎是实时的告诉大家。
给大家介绍一个新的在数据分析的技术,现在市场包括微软,包括AWS,现在市场上图的数据库非常多,有一些老牌的,有一些比较新的,我们看到原来的这些数据库把它简单归了类,有一些数据库是能够让数据以图的形式展现出来,然后有一些数据可能是说我可以支持一些图的算法,但是我们看到当中有一块,到目前为止我知道大家可能都接触过,但是没有真正的企业去拿它来做生产的数据库,我们看到当中是有缺一块东西的,那缺一块什么东西呢?我们TigerGraph创始人,我们最早的团队希望帮大家解决的问题,第一个图数据库是不是可以做到实时更新。第二个问题是计算的深度只有2到3层,为什么不能找十步的关系。第三个是真正的生产系统,能不能有一个数据库是可以支持一亿的持卡人,上百亿、上千亿的数据量级别?最后一个现在图数据库能不能有一个完备的语音,能让我去很简单的上手,然后把机器学习要的东西放进去。
我们TigerGraph其实不是一个新的公司,我们不开源,我们是一个从0开发的系统,我们是为数不多支持分布式的,然后我们可以用现在最多的多活技术,可以全程做并行计算。
我们的创始人许博士,他是在硅谷,他自己本人有15项的数据库专利,之后有机会他会来到中国。我们最不是在硅谷的红木城,国内的办公室是今年在上海设立的,最后的部分我们会发布一个更好的东西给大家。这个图大家都知道我们想放什么东西进去的吧,TigerGraph是看到市场上,图是一个好东西,但是大家觉得这个好的东西没有办法真的用起来,没有人做我们就去做,我们去做了一个大图的表,真正的一个大图系统,非开源的,刚才的四个问题我相信大家都还记得,我们对这个问题的答卷是这样子的,第一个我们做了一个图数据库,目前可以达到的数据更新,实时更新量级是在百万级记录的每一秒更新,目前看到的查询是在亚秒级。因为应用了并行的技术,可以实现3到10度的实时查询,我们现在部署了已知的目前业界商用的图,我们看到的顶点数量,也就是对象的数量是千亿顶点和万亿级别的边,这个系统现在还在跑,它的数据是实时查询、实时交互的。
最后一个问题是开发的语音,我们有一套GSQL的语音,这个语音是跟标准的CQ是类似的,我们看到最快的学习周期是两天,最难的部分不是对数据库的经验,而是不是能够理解那个图。然后我们做了可视化的界面,我们外面有展台,你的一张图上面,像这边是一个星状的、点状的图,你点一个人他的交易就可以展开来,你可以任意两点之间去找这个关联。我们这个产品已经做出来蛮长时间了,企业级软件该有的我们都有,我们可以放在云上面,也可以在本地化部署,都没有问题,备份是标准的东西。有了图,人工智能加上图可以带给大家一些什么样的启发和创新?接下来我会讲两个例子,因为时间有限,然后介绍一下我们的客户利用我们的东西做了什么。第一个在机器学习的流程当中,这是一个常见的流程,美国已经有非常多的客户在用我们的东西,机器学习一般来讲会有准备数据,然后特征抽取,然后训练模型,不断完善自己的模型,在特征抽取的过程当中,TigerGraph可以帮到非常多的东西,第二个当你的模型完成之后,你要去评估你的模型的时候,图是可以很直观的把你的业务转化成你的模型。最后美国那边已经有一些客户在试着用一张大图去整理它的数据,因为时间关系我只会讲两个简单的例子。
第一个是我们在一个运营商做的实时欺诈电话检测,这是我们最后做出来的结果,用我们图的特征加上机器学习的算法,我们看到正常通话有很多电话是有很多互相通过,他们可能在三层或者四层的关系之内是一个固定的群体,一般正常打电话的行为是这样的,异常打电话行为基本上是单向的,而且打去的人都是不一样的,我们把欺诈事情又分成三种,第一种他打去的电话是固定的人群,经常会打去不同电话的人,除了欺诈电话我不知道大家能不能想到还有什么,就是我们每天都会接到的推销电话,这个是我们当时这个项目最大的挑战,销售的电话和钓鱼诈骗电话的差别在哪里?通过图的计算看到最后两点,接电话的人有很多人你走两三层关系,发现他们都是有关联的,而打欺诈电话大多数情况下,他都是一次性随机在打的,他是按照号码在打,而不是按照人的关系在打。
这是我们已经上线的一个案例,这个项目现在做到的事情差不多是几千万的同时通话,每秒钟上千的通话。我们改变了两个东西,第一个传统的机器学习,你能够做的事情是批量的去,我们也有嘉宾讲到抽取特征,你可以知道是男是女,可以知道年龄段,这都是事先算好的,但是如果我们有了图计算之后,而且我的图计算性能足够强的话,我可以实时计算这个信用分,信用缺失的感染地图,如果我非常亲近的同事,每个月都有交易往来,这个同事出现失信的情况,我的信用就不是固定的了,而是有浮动的,所以我们可以做到实时更新、实时计算。我们给了大家一个工具,这个图不但是可以存储数据,而且这个数据是可以随时实时更新、实时计算的。
第二个这家通讯商之前有的特征,每个人有10到20个特征,我们现在不但可以知道这个人,而且我可以知道他的朋友,而且我可以知道受话人的情况,10到20个,我们在这个项目里面排列组合之后,我们最后做到120到200个特征,这对于你模型训练的效率和对模型准确度的提高,会有一个质的改变,在这个方案里面我们客户满意度是非常高的。
第二个是我自己放上来的,你去买一个电脑,正常人最简单的思考,你买完电脑应该给你鼠标、鼠标垫,而不是再给你疯狂的电脑,我们在美国那边上线的一个系统,是根据你浏览过什么,购买过什么,你住在哪里,你跟朋友在这个地方互动过什么东西,甚至你的设备,这些数据都是来源于不同数据源的系统,我们把它放在一张图里面,甚至你曾经的个人爱好,全部放在里面以后,实时计算,你每一次登记进来的,把这个结果让机器人带过来告诉前面就可以了,在这个系统也已经上线了。我们也做了一些简单的可视化图形,因为时间关系就不一一展开了。
采访小札
TigerGraph作为新一代企业级实时图数据库平台,是一只敏捷而聪明的老虎。这一回,我们有请到乌总,通过简短的几个问题的,为我们解答AI变革中的TigerGraph的进阶,同时经过互动、互联、可分析的数据,阐述了六步理论的假想与验证。
记者:您如何看待现在AI发展面临的挑战和潜在的机会?
乌总:其实AI就是人工智能,人工智能的发展伴随着计算机软件硬件的发展过程,现在的AI我觉得比传统的人工智能有机会,主要原因是因为现在是一个万物互联的时代,是一个真正你能够采集到足够多你希望去做分析的数据的时代,所以我觉得现在AI这几年比较热,也接近了一个可能有突破的时机。但是现在真正要实现突破我觉得还是需要有一个新的技术上的底层技术上的突破,跟新的技术的出现,才会引导到整个行业的发展。
记者:与去年的AI相比,您怎么看待今年的AI?
乌总:这两年整个科技圈创业的气氛比较浓,那不断的有新的技术跟新的尝试的方向出现,所以我们觉得今年的AI可以看到两点。第一点,场景越来越明晰,这些场景背后的业务价值越来越清楚。第二点有一些新的技术的成熟,使得AI的效率和真正能够落地的可能性变大了。所以我们现在可以看到的是AI的场景和技术的轮廓越来越清楚,而不像前几年好像是在看科幻片,我们现在看到的很多AI人工智能描述的场景已经可以在生活中见到。随着新的技术的落地,比方说头像识别,云的识别,包括数据分析的可能性,让AI变得真的离我们越来越近,看上去会是一个真正能够使用起来的系统。
记者:图数据库作为一种新的分析工具,如何帮助AI进一步变革?
乌总:我们是图结构的数据库,是由点和边形成的数据库,它不是存储图像的数据库。图从一开始诞生的时候,它就像最自然的社会自然界的关系,像两个人之间有什么关系,是各种类型的关系。图能够用一种大家容易理解的能够清楚描述关联的模型。图数据库也经历了很多年的发展,我们以前听说过一个六步理论,如果找你的朋友,通过六个人可以认识任何一个人。但是大家都没有验证过这个理论,因为原来的计算能力和原来的数据库类似平台的工具达不到,那技术一直演化到现在,TigerGraph现在提出的概念是,第一,可以互动,也就是说数据是实时的,数据库你问它答。第二,数据是可以深度互联的,我们现在的核心并行计算技术,能够同时激活一个数据点周围所有的点,我们可以充分发挥这种并行计算的能力。如果理论上我们真的把全世界大家的关系都放进去,也许有一天我们能验证人和人是不是真的有六步之内都有关联。因此一旦有了这样的工具能够揭示这样深层的关系,那对人工智能能够获得信息的数据量,会有比较大的提升。TigerGraph是一个完全自主开发的产品,所以目前我们具备企业级的安全,包括身份认证,数据的容灾和备份,因为本身用的是自己的数据存储系统,我们会进行数据加密。
记者:在这个AI浪潮的变革中,TigerGraph可以做哪些贡献?
乌总:我们看到的比较多的是在美国更多是在跟机器学习的领域,我们大大地提升了机器学习及它能够采集数据的深度,而且因为我们是实时的数据库,我们能达到跟机器学习系统时进行的每秒钟上千次的数据的交互,这个是传统所无法达到的效果。那么现在在国内我们也有跟一些客户在个人手机APP的信用审核,授信,基本上都是实时的处理,然后还有大量的并发的用户情况,基本上已经达到性能的指标。
网友评论