几乎每个时代的入口之争都会引起激烈的竞争。
PC 时代微软借助操作系统的地位,几乎统一了所有电脑的界面。
互联网时代,一开始是雅虎、新浪这样的门户作为入口。
社交网络时代,就变成了谷歌、Facebook、腾讯等等,借助社交行为抢到了新的流量入口。
移动互联网时代,手机占据了我们生活的大部分时间。苹果公司借助手机和应用软件,成为新的产业巨头。我们每天都在用的微信,如今已经是绕不过去的入口了。
一、人工智能时代,语音交互是最重要的入口
人工智能时代的入口之争会在哪个维度上展开呢?
国内有个说法叫做“百箱大战”,意思是说越来越多的公司开始开发智能音箱。
喜马拉雅的智能音箱叫小雅。
小米的智能音箱叫小爱。
阿里巴巴的智能音箱叫天猫精灵。
出门问问、若琪也有各自的音箱推出,大家都来抢占这个新的入口。国内的竞争看起来很激烈,国外的竞争其实早就开始了,像亚马逊、谷歌、苹果、Facebook 这样的产业巨头都在争夺智能音箱的市场。
智能音箱其实只是一个语音交互入口的追求应用场景而已,这背后还有大数据,还有云计算,包括万物互联的物联网。
一个智能音箱系统抢占越多的场景,拥有越多的用户,就能拥有更多的数据,也就有着更多的训练机会,机器学习就会越来越聪明,服务质量会越来越好,从而形成良性循环。
互联网女王 Mary Meeker 去年推出的互联网趋势报告对语音交互场景有过比较清晰的梳理。报告把应用场景分为随身、汽车和家庭三个部分,把语音交互的核心价值归结为解放双手、更快得到结果和有趣三个关键词。
但是我认为,其实语音交互最大的价值是回归人性 。
语言是人类拥有的一项伟大的进化产物,使得我们协作的效率和复杂程度大大提升。
在机器不能达到人类智力水平的时候,我们只好去迁就机器,用机器能懂的方式和它交流。但是当机器逐渐具备了理解人类能力的时候,我们当然应该回归到对自己来说最有效,也最自然的沟通方式,那就是语音了。
MIT 媒体实验室的创立者尼葛洛·庞蒂,曾经在上个世纪八十年代鼠标还大行其道的时候就预言,未来人类和电子屏幕的交互应该是直接用手机的,因为那样更人性。虽然当时还没有技术能做到,但是我们今天已经知道了,触摸屏已经是手机的标配了,可见技术的趋势不应该是增加使用难度,而是降低使用的门槛。
未来的技术会越来越迁就我们人类的习惯,语音交互就是这样一个在各个场景中都可以嵌入的技术。
目前,热门的语音入门场景,有家庭、办公、随身、车载等等,几家巨头的布局,包括亚马逊的 Alexa,谷歌的 Assistant,微软的 Cortana,包括苹果只用于自己生态的 Siri,它们都分别把持着自己的优势场景,现在还不能一家独大。
除了应用场景的重要性,入口之后的数据和应用平台也非常重要。
尤其是在强人工智能不够强的时候,在细分领域做到足够积累是非常重要的。否则,不管是手机、汽车,还是音箱,大家可能只是起初图个新鲜,调戏一下这些人工智能入口,很快就会发现不过尔尔,好奇阶段一过,很快就会忘记了。
这方面有一个重要的产业案例,就是电子阅读器。
当初索尼、松下、亚马逊都在搞,但是最终亚马逊的 Kindle 一家独大。为什么呢?因为亚马逊有内容,作为全球最大的网络书店,亚马逊对内容有很强的整合能力,这一点上索尼和松下都没法竞争。
无疑,人工智能入口也是这样,没有后台很难成事儿,这在国内也能看到,虽然有百箱大战,但是实际的应用却并不乐观。
二、人工智能入口的热门场景争夺战
我们这里重点来分析几个场景,当然越多场景的占领意味着机会越多。从家庭场景来分析,我们认为智能家居和家庭陪伴机器人是最有潜力的两个场景。
1.智能家居
智能家居已经喊了20年,始终没有成为现实,是因为切入点不对。现在这一波智能家居总算找对了应用的切入点。除了以点播音乐为主打应用的智能音箱,随着大屏智能电视的普及,电视的语音互动成了第二个大热点,比如苹果 TV,谷歌 Assistant 支持 Android TV 等等。
在这方面,亚马逊是领导者,亚马逊最先推出的智能音箱 Echo 除了点歌,还能够方便线上购物,它的唤醒词是 Alexa,所谓唤醒词就是当你有了智能的设备以后,对它说话它不一定知道是对着它,所以你要先对它有一个称呼,让它知道你在对它说话。
比如说对于亚马逊的智能音箱 Echo 来说,用户只需对着它喊一声"Alexa" 就能够激活它的智能系统,通过语音控制来下单购物。
亚马逊的智能音箱卖得很好,2016年年底的时候就已经超过了1000万台。但是亚马逊 CEO 贝索斯也发现,作为人工智能入口,Echo 连接的亚马逊电商用户,相比于整个大市场来说还只是九牛一毛,想要继续扩展市场,必须要开放系统,做大平台。所以亚马逊也一直在与竞争对手谷歌激烈地进行第三方融合的大比拼。
国内阿里巴巴推出的“天猫精灵”、京东与科大讯飞合作推出的“叮咚”、小米智能音箱“小爱同学”等等,硬件没问题,但总体在大数据和软件整合方面还有很大差距。
2.陪伴机器人
陪伴机器人现在很多企业在做研发,未来两年会密集推向市场,比如说软银机器人做的 NAO,可以陪小孩子唱歌跳舞。因为 AI 背后的内容和服务整合虽然很重要,但入口一定要有趣好玩、体验顺畅才会更占优势。
在办公和随身场景,多用到手机和 PC 端,微软 Cortana 和苹果 Siri 是在这上面下功夫研究的先驱。
现在最新版本的 Cortana 已经拥有更好的识别正确率,能够把语音识别的错误率控制在5.1%,大约达到普通人语音识别的水平,而去年这项错误率还是5.9%,而且,它通过上下文理解对对话的预测能力也有所提高。相比之下,苹果旗下的 Siri 还不那么“智能”。而微软与亚马逊的合作说明,接下来微软想占有人们的生活服务场景也远不止于此。
Siri 其实是世界上第一个正式推出的智能语音助手,但是因为苹果的战略转移,Siri 的发展受到很多阻碍,这两年也正在加紧追赶。
Siri可以用在苹果的所有生态中,近几年苹果除了多语种的开发,还在模拟自然语言上下了很大功夫,包括我们的重音、语调和节奏,我们总是会更喜欢更像人的一些功能,这个将会非常受用户欢迎。
三、语音语义的识别
人工智能入口除了软件和应用,背后的技术发展是其承载的重要基础,包含了语音合成、语音识别和自然语言处理,叫 NLP,三项主要技术。
在语音语义识别方面,国外要算 IBM 和 Nuance,国内要数科大讯飞、小 i 机器人和近期将要赴美上市的搜狗。科大讯飞是国内最早研究语音识别和语音合成的,相当于中国的 Nuance,小 i 机器人则是最早进行人机互动的,积累了大量实战的互动数据,而搜狗正在借助搜索和输入法积累的大量数据,在语义理解上急起直追。
语音识别已经从近场发展到了远场,其中关键的两个技术:麦克风阵列技术和远场语音识别,现在各家技术发展差别不大,这方面已经不是很大的壁垒了。虽然这意味着各大巨头间的竞争上升了一个档次,但也给面向应用的初创公司留下了很多想象空间。
自然语言处理,NLP 技术虽然在搜索引擎中早就有应用,但在人机交互领域中还属于浅层,其中,语义识别还是个难点。
由于中文经常存在一词多义,机器分析还是停留在简单的句子结构分析和浅层词义理解。所以目前我们与中文系统互动起来总是感到不那么顺畅,还需要深度学习加大量数据来驯化。这也是中国的智能语音助手迟迟火不起来的原因之一。人们在几次与机器沟通不畅后往往会热情冷却。当然,随着人工智能的进展,我们有理由相信对语义的理解也会迅速突破。
网友评论