由LiveVideoStack社区主办的LiveVideoStackCon 2017音视频技术大会在北京举行,会议甄选人工智能、教育、社交、游戏、电商、安防、金融等行业的最新应用实践,并邀请Google、Akamai、MulticoreWare、华为、海康威视、新浪微博、360、腾讯、网易云、金山云、阿里巴巴等众多知名公司技术大咖到场演讲。Yi+CTO刘彬受邀参加大会,分享一场以《 AI 图像识别如何应用于视频分发平台》为主题的演讲,从技术层面分析Yi+如何通过和多家知名企业合作,以人工智能图像识别技术为媒介,改变互动娱乐领域的交互方式。
Yi+CTO刘彬发表《 AI图像识别如何应用于视频分发平台》主题演讲
基于大屏的推荐系统
这是一个典型基于大屏的推荐系统框架,基于用户观看内容的历史记录以及当前观看的内容进行分析。我们会采用基于协同过滤以及GDBT的一些方法进行用户特征建模。目前我们已经开始尝试和延伸做的就是利用深度学习的方法去对用户行为建模。最后,基于模型和当前内容跑出的一个结果,实际上是把推荐内容,包括视频、广告、电商内容和互联网的内容,重新在用户前端展现。
智能推荐算法
首先,这种基于图像、视频分析的一个推荐,和我们传统用户、大数据或者说用户的行为分析这块,其实在产品研发时遇到了冲突。之前我们在手机上收集用户数据是非常容易的,包括各种数据埋点,或者说数据的用户画像是能够比较快锁定的。但是,大屏上比如说它的用户画像,因为往往一个电视可能有几个人去观看,这几个人的这种规律和观看习惯可能完全不一样,这跟手机有非常大的区别。
大部分大屏厂商,他们的这种数据埋点、用户画像的能力往往前期是不太足的,他们的数据也是从一些第三方内容的导入,包括自己建了一个数据系统,这个数据可能是部分视频有的。所以,它很难像我们移动端的一个APP 产品一样,它的用户数据是非常全的。所以其实这也是我们之前使用这个产品,基于图象、视频分析去做这样一个事情的核心原因。
我们认为在这种智能电视市场,会有比较大的一个突破的地方,就是说它的推荐是能够非常快速,没有冷启动的一些瓶颈,推荐的效果也没有过多的用户画像长期积累这样一个过程。这个是我们一个比较大的收获,包括后面引用了一些深度学习的算法,对数据维度,包括扩充的能力也会比较强。
第二,就是目前这个市场不够成熟。用户的交互习惯已经培养的非常好了。你做手机应用的时候根本不需要考虑这些,但是你在大屏上教用户去按某个键,比较多的调用他的摇控器,甚至有的APP 是要用手机交互,这个过程当中,其实是有前期用户习惯培养的机制。
第三,和硬件的交互适配,我们服务的厂家,它自己在硬件上有了很大的改变,比如说,它的摇控器是重新设计的,前端看到的也是比较互联网化的体验。
推荐系统算法简介
下面是系统的一个简单介绍,如果有专门做智能推荐的话,这些都是很常见的东西,我们现在采用波的是协同过滤,我们拿Item-based,实际上基于智能分析的标签,或者说图象、视频生成的一些特定标签,实际上基于memory-based、Item-based,然后去做的一个协同过滤。
AI 技术相关
关于视频这部分,应该说,我们也在探索,因为这个是一个多模态的技术融合,现在市面上客户一个比较简单的需求,他可能对视频内容的诉求比较多元化。
我们发现对于客户来讲,或者市场上希望能够对视频进行分析的内容,往往比单纯的图象本身能够展示的内容要复杂。基于这样的一个原因,包括直接对视频,尤其是我们会用C3D 东西,直接对视频加上时间、时域的特征去做分析。
多模态技术融合
第一行,就是一个单纯的视频序列,传统上,我们可能更多做的是对于图象本身,或者说单纯的图象分析,但是现在我们可能直接把三维的特征,包括时序的特征都去直接做一个提取,因为这种方式,往往比图象的特征合成要效率更高,因为它能够快速的出一个视频最终的特征集。
第二行,应该说语音或者音频的一些信息。
第三行,比如说,OCR把字母或者文字特征提取出来之后,最后你可能三种,包括图象本身所有的信息,去把所有的特征做一个重新汇总。
以上通过简单的技术分析,使Yi+在娱乐和人工智能领域应用得到可视的发展,那么未来会出现什么样的发展路径 ?在大屏(智能电视)、广播电视市场中,人工智能产品能产生怎样价值?刘彬举例Yi+与阿里数娱、优酷土豆、趣拍、中信国安等合作案例,来解释这些问题。
方向 1:大屏/智能电视
“边看边X”大屏AI助理DEMO
这部分包括第一项就是智能电视的观看 AI 助理,它是一种伴随式、体验式的。另一项是电商,中国电视购物这一块占比很低,但是在一些欧美国家,比例却很可观,这其中有中国自己的一些特殊情况,但我们认为在结合大屏、智能电视这一块,还是有望获得一些突破。其他还包括:智能电视中直播内容的导流、智能电视的场景广告及智能视频的短视频的生成。一个短视频的生成相当于基于一个长视频,一个完整的视频,通过对它的理解和一些精彩片段的提取,然后自动生成一个精华片段。Yi+曾用强大的视频识别引擎为阿里数娱天猫魔盒打造人工智能OTT生态,通过这种人工智能产品提升交互体验,革新生活方式,实现人工智能商业化。
方向 2:移动端/智能手机
Yi+物体识别动态AR贴图演示
这一块应该大家接触的可能会更多一些,包括拍照购,例如淘宝的这种拍立淘,就是拍到什么,能够实时显示对应的商品;智能相册,这个产品已经应用的非常好了,各个移动端的相册归类也好、搜索照片也好,都会越来越方便;虚拟试妆,就是 makeup 的效果,直接能够在移动端或者在手机上看到,类似于直播贴图,这个产品的潜力非常大,Yi+曾为趣拍增加AR效果,并增加趣味滤镜、动态贴图、品牌广告等实现物体AR贴图特效;另外还包括动态的 AR 相机和信息流推荐。
方向3:广电市场
电视直播实时识别信息展示
我们发现最直接,且已经非常成熟的,或者说我们认为是必须存在的一个商品,就是大屏,或者说是智能电视,其实它早就在这儿了,但是我们好像并没有把这个领域利用的非常好。Yi+把握住了这个机会,先同广电系统达成战略合作为5大电视厂商5大牌照方打造互动电视广告平台,后受邀加入广电总局TVOS工作组,共同制定行业标准。可谓掌握众多广电资源,服务亿万视频用户。10月,Yi+和中信国安广视合作,提供有线电视直播实时识别与点播视频的视觉识别解决方案,实现在电视直播时,毫秒级完成实时视频直播内容识别,并对频道中出现的通用物体、明星人物、汽车、卡通形象等进行实时检测识别输出。一系列颠覆性突破以及与巨头合作商业落地,充分奠定了Yi+的行业领先地位。
此次大会的技术演讲,只展现Yi+AI的冰山一角,算法、大数据、行业专家使得Yi+成为AI+视频领域的领头羊,Yi+ 正在用技术革新改变人们的生活方式、变革传统电视媒体,未来将如何发展,我们拭目以待。
网友评论