如今,语音作为一种人与机器交流的方式,已经屡见不鲜。你可能在Siri刚火,但技术却才刚开始起步的阶段试用过,从那以后就在也没用过。而且就算使用语音,我们好像也就用语音离不开老三套:天气怎么样?今天有什么新闻?放音乐!
触屏手机出现后,手写输入成为了手机厂商宣传视频的一大亮点,我记得当初看主打商务人士的金立手机,在视频广告中,商务人士在手机侧边缘掏出触控笔,坐在商务车的后座上,用触控笔写字发短信。
金立与刘德华
然而到今天,使用手写输入的人已经很难见到了。乔布斯在07年演讲时,宣传多点触控技术的时候,就抱怨了一通手写笔这样鸡肋的产品。相比于全键盘的输入方式,我们有十个手指来去输入文字,而用手写,对屏幕却只有一个触控点,这严重降低输入效率,尤其是对于日常使用英文的人来说。
那么,语音的交互技术是否也像是手写输入一样,是一项有噱头,却很快沦没的技术呢?
最早的语音产品
故事要从上个世纪二十年代讲起。下面这张图片中的就是最早的能够响应语音命令的产品。图片中的这只狗名叫Rex,它是一个普通的玩偶,在它身上没有任何科技元素,真正的技术是在Rex的小房子里。你向图片中那样,把Rex放在小房子了,然后向他喊“Rex”,Rex就会“跑”出来。实际上是被弹出来。
Radio Rex Rex和它的窝 Rex窝的底部 Rex窝的拆解向它大声喊Rex,这时的声音震动频率会有500Hz,上图中房子那个银色的像铃铛的东西会接收到,然后转换为信号,最终导致弹性装置的释放。
国外的Google Home和Echo
我在公司同时使用了这两款产品一段时间,这两款产品在国内使用,都需要科学上网,而且至少是需要从路由器上就能科学上网。使用google home,需要在手机上安装google home的APP,我用的是Android手机,还需要下载一个google的套装才能下载这款APP,相比于google home,Echo的APP的使用就相对简单,在手机上直接下载Alexa安装好就好。
Google Home和 Amazon Echo
尽管今年第一季度,Google Home的出货量超过了Echo,媒体首先就按耐不住了,终于等来了一个大新闻,终于有人在智能语音市场强势反击亚马逊的“老大哥”地位。
确实从广告宣传、合作伙伴生态、还是销量上看,谷歌都有不俗的表现。但在智能语音生态上,谷歌要赶超亚马逊仍有很长的路。亚马逊在语音上建立了一个庞大的生态系统,这其中包括三个部分,具体可以参见这篇文章亚马逊30,000,000智能音箱帝国背后的核武器。
我在使用Echo的一段时间里,集中使用了Echo中的skill,也就是文章中提到的亚马逊的三柄利剑之一的skill。什么是skill?可以把亚马逊的Echo智能音箱想作我们平时使用的苹果手机,而skill就是我们从Apple store中下载的APP。这些skill已经有4.5万个可以下载。有关于盘点Echo智能音箱的skill的文章,几乎没有,我在外网找到了这样一篇文章50 most useful Alexa skills,在这篇文章里,分类别的盘点了Alexa的50款优秀的skill。
我选择其中几个有意思的介绍下。
一、The Magic Door
这款技能,详细的介绍可以参见这里The Magic Door Brings Alexa a New World of Interactive Adventure
The Magic Door这款游戏有10个故事线,和数百的声音效果。在使用的时候,对Echo说“Alexa, open The Magic Door”(Echo是智能音箱的产品名,Alexa是智能音箱中的助手的名字),这款游戏就启动了,一声打开魔法大门的声音就从Echo音箱里传出来,然后我们就进入了故事。Alexa会给你提供选择,问你下一步是去山上还是去海边,这并不是一款简简单单只用语言沟通的问答选择游戏,而是一个故事,在故事的场景中,为了有更好的沉浸感,Echo会发出各种声音特效,比如说在海边,就有海水拍岸的声音。游戏中,你需要做的也并不是很复杂,比如Alexa会告诉你,桌子旁有钥匙,而你需要做的是告诉Alexa去拾起它。
二、Question of the Day
Question of the Day每天提问你一个问题,这个问题的覆盖面从文化艺术到科学技术,各种都有。它会给你选项,来让你回答,并在你回答后会,告诉你正确答案,每天只有一个问题。这款问答类的skill还有Song Quiz,这款skill的玩法是放音乐,然后让你猜歌名
Song Quiz三、7-Minute Workout
7-Minute Workout这款skill会引导你进行7分钟的锻炼,在你锻炼的时候告诉你锻炼技巧,当你需要休息的时候,你可以告诉它暂停一下,并且它可以保存你的锻炼记录。
四、Find My Phone
Find My Phone这款skill,可以在你找不到手机的时候,告诉Alexa,Alexa会打电话给你的手机,从而让你发现自己的手机。
还有很多skill,简单的先列举几款让人可以产生更多联想的skill。庞大数量的skill,为Echo构筑了一道坚固的护城河。
国内的智能音箱
近两年智能音箱迎来了井喷。就像今年的CES Aisa上智能音箱的大量涌现,参展的有阿里、小米、京东、百度、腾讯、联想、苏宁、小鸟音箱、哈曼、出门问问、若琪、DOSS等各家的智能音箱,现场几乎所有知名一点的音箱品牌都来露个脸。在国内的这些智能音箱中,销量最高的是阿里的天猫精灵和小米的小爱同学。智能音箱类似的功能我就不多说了,说两个有特色的亮点。
一、天猫精灵
天猫精灵推出了一款手机支架(当然官方并不是这个称谓)。可以把手机放到上面,在打开对应的APP,天猫精灵的音箱就和手机连在了一起,这将音箱的使用拓宽了,不在局限于用语音进行人机交互,语音有了视频反馈。
天猫精灵 当查询时间时屏幕有对应的显示 通过手机摄像头来识别二、小爱同学
小米的的小爱同学优势在于小米背后的整个生态,小米已经是全球最大的IOT公司。使用小爱智能音箱,在搭配上小米的其他智能硬件设备,更容易实现智能家居。
小爱音箱宣传视频,在展示用来切换电视频道抖音上记录了一位男士家中使用小爱同学
视频中,这位抖音朋友打开家门,说“小爱同学,我回来了”,小爱智能音箱回复后,就自动打开了房间的灯,和拉开了窗帘,并放起了音乐。
三、渡鸦
总的来说,大多数智能音箱特色并不是很明显,就像google home一样乏善可陈。除了渡鸦的raven H和raven R。
raven H
raven H的亮点很多,其中的一个亮点,是它的顶部是可以拆下来的。这个可拆卸模块叫做touch,它具备独立的存储,可以通过和音箱的主体构成一个局域网,实现远距离的通信。同时,在未来渡鸦准备为这块touch升级更多功能,比如说将touch随身携带,带去朋友家开party,朋友家也有raven H,就可以把自己的touch放到朋友家的音箱的主体上,放自己的音乐。
image.png raven R
尤其是raven R,这是最酷的音箱了,现在还没有开售,特别让人期待。强烈建议观看官方宣传视频,这才是来自未来的智能音箱。
渡鸦 Raven R 极客公园舞台首秀
看完后,很长一段时间,我都觉得很酷,直到我知道了妖娆花。。。
随音乐扭动的妖娆花语音交互
智能音箱是主要依赖语音进行人机交互的设备。除了智能音箱之外,语音交互已经从人机交互中独立出来。
一、关于VUI
通过语音的交互,可以产生不同于我们平时用的手机APP的产品。我们现在的互联网的产品的视觉交互设计叫做UI设计,而针对语音的交互设计如今有了名字为VUI设计。
关于VUI,有这样一篇文章,Designing Voice User Interfaces
这篇文章写得很好,我摘其中几段说下。
智能音箱与手机语音助手:
1.我们向音箱提供的信息太少。比如说查询一个县的天气,而这个县的名字在全国有多个,智能音箱不知道你要查的是哪个省哪个市的。
举了一个用语音点餐的例子,需要给餐厅提供的信息要至少有这些,才能完成一个完整的点单。
点披萨
2.我们向音箱提供的信息太多。关键词太多,音箱不知道你要表达什么,你的命令是什么,会容易引起音箱的理解错误。
3.手机的语音搜索与用智能音箱的语音搜索。手机语音搜索会有很多可视化的选项,马上呈现出来,而智能音箱需要一个接一个的朗读出来,这需要的时间比手机语音搜索会多很多。
手机语音搜索
二、语音交互的优缺点
在Medium上有这样一篇文章分析了语音交互的优缺点。原文在这里,Why should you care about voice interfaces?,下面,我来翻译下。
语音交互有这样几个优点:
1.迅速,直接。就拿设置闹钟来说,我直接用语音“给我设置明天早晨7点的闹钟”,比我唤醒手机,找到闹钟,点进去,然后在设置时间,要省去好多步。
2.适用于一些手势操作不方便的场景。比如说开车的时候,做饭的时候。这时用语音就会更适合。
3.使用门槛更低。我们只需要学会说话就够了,不用学习怎么使用新设备,不用看软件操作引导指南。
4.语音比文字包含的信息更多,语音不同的语气就包含了不同的意思。
语音交互不太试用的场景如下:
1.在办公室之类的地方,想象一下,大家如果都在自己的工位上用语音与电脑交互,那大家会不会以为进了客服部门。
2.需要仔细斟酌的时候,这时用语音就显得有些轻率,还是用文字,更能够让你仔细斟酌下,这样说是否合适。也更容易修改。
3.当涉及到隐私的时候,你是不会在大庭广众之下,对着你的电脑询问“身上长痔疮了怎么办?”的。
三、语音交互的商业实践
语音交互的方法论有了,那实践有哪些呢?
1.可以看下面的视频。
点34杯咖啡,人工需要两分半,而AI收银员只需要49秒。在5月份举办的“云栖大会·武汉峰会”上,阿里云展示了AI点餐技术。客户以每秒5个字的速度,向一台机器点单,并频繁更换语句,这台机器对每次对话均作出了精准应答。
2.语音交互放到汽车上会是一件很有前景的事,汽车相比于手机是一个更大的可移动智能设备,而且汽车在行驶时,通过语音交互相比于通过手去操控显然更为合适。
奔驰车展 语音交互系统可以识别方言
3.还有就是罗永浩的TNT了。罗永浩在鸟巢的发布会,很多人都把关注点放在了吐槽上,让我们抛开罗永浩这个人本身,想象这个交互方式的亮点在哪里。罗永浩在发布会上表达了这样的一个观点,以前的语音交互太依赖于语音了,即使是人类,但凭借语音也需要一段时间才能反应过来,如果连笔带划的,通过肢体语言才会更好的把信息让他人明白,所以语音交互还是需要借助其他的传统的交互,如触屏点击,这些一起来对设备完成整个命令的下达。相比于语音和视觉:一、人类更倾向于用声音去表达信息,因为更快,更便捷。二、人类更倾向于用视觉去接收信息。
总结
最后还是以《怎样以正确的姿势打开TNT--我对下一代交互逻辑的深入思考》中的一段话作为文章的结尾。
“未来人机交互的瓶颈在于人类,受限于表达信息的方式,语音是表达的最优解,手的动作次之,因此语音才是最有可能在未来超越手写及键入的方式,且具备足够低的替换成本!即便有手势识别也好,有眼球追踪也好,有“语音尴尬”也好,在未来人机交互的表达上,一定是绕不过声音的!”
文章参考:
Why should you care about voice interfaces?
Designing Voice User Interfaces
《怎样以正确的姿势打开TNT--我对下一代交互逻辑的深入思考》
网友评论