在开始分析之前,先听听(机器学习界的)迈克尔.乔丹的一句话:
“我们说现在的系统都涉及到数据的输入输出,他们其实是在模仿一些很聪明的东西,但也仅仅是模仿,根本称不上是智能,我们并没有实现它。机器学习还远远没有发展到足以成为一个可靠的工程原则,可以针对现代数据分析问题得到鲁棒的,可扩展的解决方案的程度,有很多涉及到不确定性,推理,决策,鲁邦性和规模化的问题都还没有得到解决。更不要说经济学系统了,因为我们甚至对建立系统时的定价和激励行为也没有得到足够多的思考。社会法律系统也是如此。
我以为每个人或多或少都会认识到这一点,但没想到等待他们认识到这一点需要的时间却长得不可思议。”
这位现今机器学习领域很多重要学者的老师,话中意思很明显:对于这些深入钻研技术,把握科技方向的学者来说,市场把人工智能过于浮夸了,没能达到智能的水平,却一直说着智能的名,这对于他们来说是痛苦的,在他们看来,人工智能的解决问题的方式,要远远超过现在的能力,但是这个争先恐后的现状使得公司,个人都在追求利益中渐渐忽略了人工智能技术是否成熟,制度是否配套,体系是否完善等自身的发展,这对于人工智能来说是可惜的,也会让这场泡沫越来越多。
之所以要在介绍AI语音行业的开篇引用他的这段话,是想从一个更冷静的视角看现在中国人工智能各公司,各方向现状,看看他们在做着什么事,有着怎样的发展规划,哪些是急着在赶风口,哪些是真的了解人工智能,并在为深度挖掘人工智能的潜力,完善其制度,体系做着努力和积累。我想这样的企业才是走得更长久的。当然,这篇文章只介绍语音领域。
先列举一下现在主要在做语音这一块的企业,既包括龙头企业,也包括初创企业,毕竟在AI这条路上,大家都是初学者,都在摸着石头过河:
综合:百度,阿里,今日头条,京东,小米
语音技术:科大讯飞,思必驰,云知声,出门问问,图灵机器人,搜狗,捷通华声,追一科技,光云科技,数心科技,海知智能,普强信息,三角兽科技,玻森数据,智齿科技
机器人:ROKID,小i机器人,紫冬锐意,猎户星空,优必选,新松机器人,未来伙伴机器人,布丁机器人,人智科技,小鱼儿科技,Gowild,北冥星眸,极思维智能科技,萝卜科技,妙手机器人
由于公司一个一个介绍占用篇幅过多,而且并不能很清晰的说明现在各个发展路径的现状及存在问题,所以我们按应用篇,开放平台篇,芯片篇的分类情况分别分析,中间涉及到哪些公司另行讨论。
切忌为了科技而科技AI语音行业现状及分析——应用篇
AI在语音方面的应用可分为软件方面和硬件方面,软件方面那就是手机助手了,这种产品旨在通过语音的方式为用户在搜索,唤醒功能,闲聊方面等的服务,但个人看来,现在移动互联网的热潮还在,人们对于界面的使用习惯还是根深蒂固的状态,所以用另一种方式去做原来用点击,滑动完成的任务,对于他们来说,在使用之前,心里就会有一个评判标准,比如我解决问题是比以前更方便了么,我说什么他都能给我想要的答案么,能一次识别出我说了什么么,并从各个角度验证它,如果未能达到预期,就会果断放弃使用。
就算开始几次感觉还可以接受,但是由于这种方式并非让用户感觉非用不可,几次之后又会回到之前的操作习惯了,所以,在手机上的语音助手是不是一个伪功能还有待考察。
如果想要彻底改变这种人机交互的方式,不是简单的把新技术应用到现有的设备上就会受欢迎了,要彻底的为这种技术搭建一种人们在这种整体环境下生活的概念,所以,个人对于在硬件方面的应用更看好,离这种理念会更近一点。
硬件方面应用现在主要有智能音箱,智能手表,智能耳机,车载,智能家电,以及应用在机器人上的语音功能。
现在市面上的硬件产品无论是哪一种在功能上相差无异,技术还在发展过程中,能完成的任务的程度都相当,这时候,关键在于这些技术和自己的领域是否结合的精准,恰当,或者是否开发出了能完美应用语音的新领域。
篇幅原因,我们这篇先聊智能音箱这一种。
智能音箱
为智能语音交互打开了硬件的大门,他所能完成的功能主要应用在家居上,比如控制家电,查询信息,日常闲聊,看起来很多功能都和手机也没什么两样,但是应用场景就大为不同,一个人回家可以坐在沙发上随便说几句话就完成他要起身做的一系列事情,这种感觉很自然,也很有科技感,但是你让他们回家之后拿出手机,打开语音助手,去进行这些操作,他们会感觉有这个必要么,明明是顺手就可以做的事,就这么一步的差别,使用起来就是完全不同的心态,所以用户的生活习惯是很难也很容易养成的,关键在于这是有助于他们顺利完成任务,还是变得复杂了,如果是后者,哪怕一步也不行。
智能音箱领域的典范是亚马逊的Echo,使用者已经占据了美国人口的六分之一,之所以如此受欢迎除了它有贴合的家居场景外,还有功能完备的技能树,现在支持它的开放平台已经有一万五千多个技能,那就代表着已经能解决生活中的大部分问题,而且它人性化的提示灯,让用户在使用的过程中随时知道自己处在什么一个情况,不会被一些基本的使用问题所困住,与此同时,他有巨大的电商帝国亚马逊作为背后支撑,可以再完成技能上做更多生活中实际的应用,这就造就了人们对它的依赖性。
国内现在的智能音箱市场情况,可以说是刚刚起步,就陷入低迷了,(黑人脸),在去年一月到八月销量平平,只有10万台,在八月之后有明显提升,特别是双十一阿里的天猫精灵,京东的叮咚都卖出了一百多万台的战绩,当然这是以前者每台不到一百元,后者不到五十元的价格作为牺牲换来的销量,这种销售方式反映的是一种产业链上的不完善,和对自身产品的不自信,高端产品刚走进大众眼球,先卖了低端商品的价格,这样对产品在用户心中的定位和产品未来走向不是很好。
个人认为,现在浮躁的市场需要想办法将产品功能做优,将法制,商业,产品各个链条体系完善,不要把人工智能当做竞争市场的筹码,还没发展起来就想像互联网一样竞争的你死我活,那会把一手好牌打得面目全非。
当然,到现在为止,纵观全年来看,价格还是处于300到600元偏多:
BL go smart:399元,其内部的语音支持平台是讯飞的语音助手,产品主要功能是可以用语音操作的形式听歌(换歌,调音量),听广播(与喜马拉雅APP合作),搜索,也可以闲聊,在放歌曲时询问其他信息,歌曲中断,回答问题,回答后继续播放,在APP上可以连接家电,智能控制家电开关,模式转换和播报使用情况等。
小米-小爱音箱:299元,ASR用了nuance,搜狗和思必弛;NLP用了自己的小米大脑;TTS用了猎户星空。小米在布局整个智能家居产业链相比其他大公司更早,在空气净化器,插座,电饭煲,电视,扫地机器人甚至电灯都有所布局,所以这是一个就像我说的完整的硬件环境,整体环境有了,才能发挥语音的真正价值。就这款智能音响来说他可以控制家中电器,在线音乐、网络电台、有声读物、广播电台等,提供新闻、天气、闹钟、倒计时、备忘、提醒、时间、汇率、股票、限行、算数、查找手机、百科/问答、闲聊、笑话、菜谱、翻译等各类功能。
京东-叮咚A1:798元,开放平台用的科大讯飞助手,现也有自己的开放平台,功能上已经接入1000余种技能,包括健康,娱乐,新闻,教育,智能家居等。但是用户在实际使用中存在一些弊病,比如识别距离在三米以内可以,再远就不行了,发音要尽量标准,稍有含糊都影响识别,对话流程不流畅,合成效果不自然,这就使得用户的体验效果很不舒服。
阿里-天猫精灵:499元,内置第一代中文人机交流系统AliGenie。目前可实现智能家居控制、语音购物、手机充值、音频音乐播放,音乐音频内容的播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格、天猫魔盒控制、天猫超市购物、智能家电操控等功能。像阿里这种巨头企业,有足够的资源在各个领域布局,外卖,家电,电商,物流,零售,还有以后更多的领域,足够可以为语音打造适宜的生态环境,他要做的就是让产品的可用性上做到极致,让用户有流畅的,自然的使用体验,否则你布了所有的局,但是用户才说几句话就不想聊了,那么其他的也是徒劳的。
喜马拉雅-小雅:999元,早上醒来、卫生间洗漱、厨房烧饭、客厅、卧室、晚上睡前等等,以提供“贴心陪伴”的方式,给人们带来一种人文关怀。从它的合成语音,唤醒提示都给人一种舒服的感觉,还有由于喜马拉雅电台的公司背景,使其在播放音乐,收听各类电台的资源和音质上都相对不错。通过滑动方式调节音量大小是一个新颖的设计,可以配合语音解决问题,对于不同状态,有不同程度的提示灯,而且还可以识别一些方言。但根据用户在实际交互上的体验中,发现在远场语音识别上识别率并不太高,要一米以内识别率较高,播放音乐,或者环境不好时识别率就很低了;由于使用上的频繁性,使得唤醒变得冗余累赘,时间长会有厌烦心理;智能化程度有限,多轮对话实现困难;放歌时候必须要说完整歌名,比如谁的什么歌,否则不识别;在使用上,要插电源才能使用,由于体积较大,便携性就不太强。
可用性是能否生存的门槛还有几款就不再做解释了,综合来看,在语音开放平台不相上下的情况下,能为用户提供的服务是相当的,关键在于识别率,合成效果,提示时机,唤醒机制,便携性,交互流畅度,错误机制,以及用户长时间使用的心态变化,是感觉越来越舒服,还是越来越麻烦等等。而要解决这些问题,只应充分理解用户在使用时候的各种可能场景,才会设计出更人性化的产品。
音箱使用上的弊端很明显
使用位置的局限,你再离不开它,你也不能把它带出屋子,不仅奇怪而且不舒服,所以这就需要在不同场合有不同的音箱,而音箱中的软件是互通的,变换的是硬件上的输入输出,但是谁能保证所有的场合的音箱只用一家的呢,所以我想要做到亚马逊那样的地位,两家甚至以上的合作是必要的,当然户外的话用智能耳机也可以解决。
还有,在家里随时随地唤醒是很普遍的需求,这就要无论我在哪,这个音箱都可以听到我的指令,但是一般一家只买一个音箱,现在音响的识别率只有在普遍3米范围之内,还是比较安静的情况下识别率才会高,谁又能拿着音箱满屋子走呢,那用语音解决问题的初衷在哪呢。所以,要么提升远场识别率,提升到至少要四周8米,但是如果有障碍物很难做到,要么设置音箱可以实时跟随人们行动,要么万物联网,生产配套的家电,都有语音操作的功能,不用音箱来支配,要么就用耳机来做这一切,但还是会多少脱离人们的使用习惯,多一步操作步骤--戴上耳机,除非人们已经培养了这种习惯。
无论音箱还是其他想结合语音的产品,一定要想清楚产品的定位,它是在解决人们的什么问题,人们为什么要摆脱现在的生活习惯而用这个不便宜还要新学习的产品,不是自己认为用户会有需求,到时候用的时候会怎样做,自己想想就可以了,是真的要让自己深刻理解人们在家中的生活习惯,这种习惯不用特殊,越普通越好,越不经意越好。
人工智能不是互联网,它不是在让人们的生活变方便,而是要从头改变人们的生活方式,互联网提供了一个大多数人能接受的平台,让每个人在里面或多或少汲取自己需要的信息或者服务,而人工智能是根据一个人的作息规律,生活习惯,兴趣爱好,甚至脾气秉性为每一个人打造专属的服务空间,这是一次从头改变解决问题方式的机会,过早的将这次机会当做战场,会让这场泡沫迟早来临。
网友评论