欢聚时代CTO鲁鹏俊
鲁鹏俊
拥有超过12年在科技行业的管理经验,其加入将提升欢聚时代在搜索技术、推荐算法、计算机视觉和语音相关人工智能技术上的专业能力。在加入欢聚时代之前,鲁鹏俊于2014年至2018年初曾担任百度搜索广告的高级总监。在百度期间,带领团队首次将GTM、Myerson Auction、Double-Tower CTR model、Reinforce Learning、图文凤巢等人工智能技术引入到凤巢系统,实现日均1.5亿至2.2亿人民币的营收增长,连续两年率领团队拿下百度最高奖。在此之前,鲁鹏俊于2006年至2014年曾在谷歌担任主任工程师,负责上海广告部工程师后端团队,并获得谷歌QueST项目创始人奖。
鲁鹏俊分别于复旦大学和武汉大学,获得计算机科学硕士学位和计算机科学学士学位。
在9月7-8日第二届CTDC2018首席技术官领袖峰会上,鲁鹏俊作为互娱行业的代表,为大家带来了《科技让人们的生活更愉悦》。
以下为演讲内容整理(有删减)
最近一直在讲消费升级,这里有个数据,就是恩格尔系数,这个系数说的是,人们的主要消费是指衣食住行,在整个消费里面的占比,这个占比从1978年到2017年占比一直在下降,说明人们在基本需求方面是在下降,但更多的消费是转向于发展和享受型的消费。这个曲线是百度搜索里面的一个曲线,是从2014年到2018年,在娱乐流量上面的消费占比,一直是在上升的,2018年的时候大概占有30%,所以娱乐性在整个社会占比里面是越来越重要。
时至今日,有很多企业,比如说抖音、快手,包括很多的直播公司,可以看得到这里全部是,今天说明了一点,娱乐化的时代已经到来了。
对于我们欢聚时代它一直是一个娱乐化的公司,从2011年开始,它就是一个做游戏语音的公司,逐渐地发展直播,到今年我们把关键词定位在人工智能上面。欢聚时代有很多的内容,除了大家比较熟悉的漂亮的小姐姐,小帅气的小哥哥之外,主要的秀场内容之外,我们还有很多游戏直播,最近也有一个子公司虎牙上市,我们也有很多体育内容,我们的用户群体也非常得丰富,除了一线的白领、二线、三线,包括学生全部都有,每个用户来到欢聚时代,他们的诉求都不一样,有的是为了打发时间,有的是为了感情倾诉。所以我们欢聚时代就是想用这个技术的手段,让这些人的需求得到满足,用技术的力量让人们的生活更愉悦。
以前我们欢聚时代一直在提倡不卡不掉不延迟,但是用户来到我们这个网站上,他们是为了得到他们想要的东西,所以内容是核心诉求,我们一定要满足每一个用户跑到我们这个网站上的一些需求。围绕内容我们今年从三个角度去做,第一个就是怎么生产用户想要的内容,第二个我们怎么做好内容的理解,第三个怎么把我们好的内容推荐给用户,所有的这些内容都是基于在人工智能的技术之上。
我们先看内容生产,我们主要是以秀场为主,人们跑到我们这个网站上,一定是为了想得到更美好的东西,所以我们需要有工具,帮助我们的主播,让他更好的生产更美好的内容,第一个就让主播自己变得更美好的门槛降低,所以我们去做很多美颜、瘦身、丰胸工具,让主播变得更美,这里面的技术很多。第一个我们要做人脸的定位,肢体的定位,身体的定位,然后在这个上面可能要去做一些美颜的算法,比如说怎么去磨皮。第二个,确实今天的用户有很多需求在改变,但是有一点他不会变,因为人们对更高品质的内容的追求,永远都是刚需。第三个我们是要让我们的内容更加丰富,所以今天有很多AI的技术,比如说比一颗心的手势之后就出一颗心,这都是从AI上解决问题,我们还有更多的内容,比如说我们口吐篮球,这些东西都是我们今天在去处理的。
内容生产说完了,我们要对内容进行理解,为什么呢?第一个今天的内容非常多,而且很繁杂,第二点呢,今天实际上是一个音视频的时代,音视频占比非常大,以前我们在文本上面处理理解的是非常透彻的,但是到了音视频之后呢,这个门槛就会大大增高,虽然我们有很多的文献,在说他们的技术怎么牛,确实到今天,你要是想完全去理解音频,还是视频,是非常困难的。所以对于我们欢聚时代来说呢,我们有很多的内容,今天要重新去理解,只有我们理解了这个内容,我们才能够把更好的内容推荐给我们的用户。所以平时主播在干啥,在这个视频里做了一些啥,他说了一些啥,底下用户在敲字说666的时候,我们要知道用户说什么很牛,这些东西都是我们要去理解的。
传统的做法有很多的人工去打标签,比如说抖音招了四五千人,快手也不知道多少人,会去打这种标签,对于我们来说,我们发现这个人工标签也有一些问题,第一个就是力度非常粗,不够细。第二个有很多覆盖不全。
这是我们欢聚时代的一个标签内容,你会发现其他里面是一个大杂烩,里面有非常多的内容,我们没有办法去打标签,当它不全的时候,我们完全搞不清楚这个用户要什么。所以在人工的基础上我们要用机器去学习,我刚才也说了,我们有很多这种东西要去理解,但是我们今天没有办法,所以我们从最基础的标签开始,这就好像大家平时去学英文,听英文,一整段话听不懂的时候,我们就去听关键词,这是同一套路,当我们整个音视频理解不了的时候,就去理解主题,就是它的标签。在算法层面第一方面先聚类,大的粗的类先聚好,然后送给人工,这一波都是跳舞的,然后说跳舞就可以了。这个搞完了之后就会把这些数据拿去做一个模型,我们有很多的标签模型,帮助我们把这个东西标出来。在语音方面,我们实际上也在做这个语音识别,语音识别也有很多公司技术很成熟了,我们有一个文本的模型,它就会把语音识别出来的文本做一个归类,最后得到我们的标签。这里是一个跳舞标签的视频,大家可以看一下这个时候已经70%、75%,这是99%了,没跳舞的时候上面就是3%,这是我们今天在做内容标签的一个小小的成果。
一旦有了标签呢,这个标签有很多的应用,非常非常有用,所以第一个用途就是说,因为标签基本上说的是这个平台的调性,打个比方,我们平台一旦生产了这些标签之后,就通过推荐算法给用户去消费,我们把这些数据统计起来之后就知道,在我们这个平台上面跳舞有多少内容,然后有多少用户在使用我们的这个内容,对于跳舞的这个内容我们只有十个主播在跳舞,但是我们的用户有一千万,我们就知道这是一个供不应求的需求,所以我们要让我们的运营出去拉更多跳舞的主播进来,因为有很多的用户需要这个东西,所以我们就会去做这个主播的运营。相反如果有一百万的跳舞主播,但今天只有一个人在这儿消费跳舞的内容,我们就知道我们缺少用户,所以我们要去大力的去拉喜欢看跳舞的用户到我们的平台上来,我们可以去做各种运营,这是标签第一个非常重要的应用。第二个应用是在推荐算法上面的,比如说杰夫今天早上花了两个小时看主播跳舞,接着听了三分钟的歌,接着又看了三个小时的主播跳舞,我们可以推算出来杰夫是非常喜欢看女主播跳舞的人,当他来到YY平台的时候,就会把跳舞主播排在前面,所以他停留的时间就会长,打赏的概率就会变大。
刚才说了这个内容的生产和理解,接下来我们还是要去把这个内容分发给我们的用户,我们要去做一些用户的推荐,这是个千人千面的事。在内容推荐里面,数据是最重要的,因为没有这个你啥也干不了,那么什么数据对我们很重要呢?第一个数据就是我们这个用户画像,我们必须要非常精准的知道,我们这个用户喜欢什么,他是一个什么样的人,这个数据我们要去收集。第二个数据就是我们主播画像、内容画像,这是一个什么样的内容,我们刚才说了做了很多内容的标签,在这个地方就会用得上。第三个数据是漏斗,在整个推荐算法里面,你要非常关注一个用户来有多少数据在哪一个漏斗上面,你才知道你的算法要朝什么样的方向去优化,这三个数据是内容推荐非常重要的东西。那么有了数据之后什么很重要?我觉得ABTST非常重要,假设我有一百个流量,五十个走侧类A,五十个走侧类B,你把这些数据跑完了之后,看一看侧类A和侧类B哪一个好就用哪一个,以前传统大家会做很多的产品,产品也是一种试错的办法,但成本非常高,如果有了ABTST会大大降低成本,它是一个定方向的东西。第三个东西是模型,模型是核心竞争力,模型能够帮助你去很好的匹配这个用户和内容,我们有非常大规模的DNA在我们这个平台上面,帮这个用户去做好推荐。
最后一个内容是关键,第一个这个内容池子必须要足够得到,如果你的内容没那么大的话,推荐没什么用,只有你内容足够大的时候,你这个算法才有用,要不然人工去排一排,基本上就八九不离十了。第二个内容要足够多样性,如果内容都是一样的,推荐算法怎么推都是一样的,你要想看漂亮的小姐姐,如果全部是很漂亮的,你怎么排都一样。第三个就是内容的质量必须要足够的高,如果你的内容质量不高的话也没有用。内容推荐实际上就是做一个千人千面的一件事,我把这个流程大家分成了三阶段,第一个就是检索,包括你去召回更多的内容,第二个就是你要预测,我要知道这个内容对这个用户来说,它的点击率,它的时长,它的打赏率有多大。第三个是排序,要做一些规则,要做生态的调控。
我也给大家去看一张我们上了人工智能之后,整个平台的效果,这是我们的用户观看时长,从今年3月份把这个东西上上去,用户时长在我们这个平台上一直在涨,大家可以看到,趋势还是非常明显的。
《双城记》里面开篇说这是最好的时代,这是最坏的时代,对于我们来说,好的一方面就是今天是一个非常新的娱乐时代,我们有很多新奇的东西可以看得到,坏的是今天的技术没有那么成熟,我们需要不断地去打磨它。欢聚时代实际上一直在不断地用技术的力量去打磨它,把这个时代所不容易做到的,用技术的力量去解决。所以我们的go就是科技让人们的生活更加愉悦。
网友评论