美文网首页
智能音箱与语音交互

智能音箱与语音交互

作者: c4a1d989518e | 来源:发表于2018-06-17 01:25 被阅读109次

    如今,语音作为一种人与机器交流的方式,已经屡见不鲜。你可能在Siri刚火,但技术却才刚开始起步的阶段试用过,从那以后就在也没用过。而且就算使用语音,我们好像也就用语音离不开老三套:天气怎么样?今天有什么新闻?放音乐!

    触屏手机出现后,手写输入成为了手机厂商宣传视频的一大亮点,我记得当初看主打商务人士的金立手机,在视频广告中,商务人士在手机侧边缘掏出触控笔,坐在商务车的后座上,用触控笔写字发短信。


    金立与刘德华

    然而到今天,使用手写输入的人已经很难见到了。乔布斯在07年演讲时,宣传多点触控技术的时候,就抱怨了一通手写笔这样鸡肋的产品。相比于全键盘的输入方式,我们有十个手指来去输入文字,而用手写,对屏幕却只有一个触控点,这严重降低输入效率,尤其是对于日常使用英文的人来说。

    那么,语音的交互技术是否也像是手写输入一样,是一项有噱头,却很快沦没的技术呢?

    最早的语音产品

    故事要从上个世纪二十年代讲起。下面这张图片中的就是最早的能够响应语音命令的产品。图片中的这只狗名叫Rex,它是一个普通的玩偶,在它身上没有任何科技元素,真正的技术是在Rex的小房子里。你向图片中那样,把Rex放在小房子了,然后向他喊“Rex”,Rex就会“跑”出来。实际上是被弹出来。

    Radio Rex Rex和它的窝 Rex窝的底部 Rex窝的拆解

    向它大声喊Rex,这时的声音震动频率会有500Hz,上图中房子那个银色的像铃铛的东西会接收到,然后转换为信号,最终导致弹性装置的释放。

    国外的Google Home和Echo

    我在公司同时使用了这两款产品一段时间,这两款产品在国内使用,都需要科学上网,而且至少是需要从路由器上就能科学上网。使用google home,需要在手机上安装google home的APP,我用的是Android手机,还需要下载一个google的套装才能下载这款APP,相比于google home,Echo的APP的使用就相对简单,在手机上直接下载Alexa安装好就好。


    Google Home和 Amazon Echo

    尽管今年第一季度,Google Home的出货量超过了Echo,媒体首先就按耐不住了,终于等来了一个大新闻,终于有人在智能语音市场强势反击亚马逊的“老大哥”地位。


    确实从广告宣传、合作伙伴生态、还是销量上看,谷歌都有不俗的表现。但在智能语音生态上,谷歌要赶超亚马逊仍有很长的路。亚马逊在语音上建立了一个庞大的生态系统,这其中包括三个部分,具体可以参见这篇文章亚马逊30,000,000智能音箱帝国背后的核武器

    我在使用Echo的一段时间里,集中使用了Echo中的skill,也就是文章中提到的亚马逊的三柄利剑之一的skill。什么是skill?可以把亚马逊的Echo智能音箱想作我们平时使用的苹果手机,而skill就是我们从Apple store中下载的APP。这些skill已经有4.5万个可以下载。有关于盘点Echo智能音箱的skill的文章,几乎没有,我在外网找到了这样一篇文章50 most useful Alexa skills,在这篇文章里,分类别的盘点了Alexa的50款优秀的skill。

    用户在使用Echo时需求排名

    我选择其中几个有意思的介绍下。

    一、The Magic Door

    这款技能,详细的介绍可以参见这里The Magic Door Brings Alexa a New World of Interactive Adventure

    The Magic Door

    这款游戏有10个故事线,和数百的声音效果。在使用的时候,对Echo说“Alexa, open The Magic Door”(Echo是智能音箱的产品名,Alexa是智能音箱中的助手的名字),这款游戏就启动了,一声打开魔法大门的声音就从Echo音箱里传出来,然后我们就进入了故事。Alexa会给你提供选择,问你下一步是去山上还是去海边,这并不是一款简简单单只用语言沟通的问答选择游戏,而是一个故事,在故事的场景中,为了有更好的沉浸感,Echo会发出各种声音特效,比如说在海边,就有海水拍岸的声音。游戏中,你需要做的也并不是很复杂,比如Alexa会告诉你,桌子旁有钥匙,而你需要做的是告诉Alexa去拾起它。

    二、Question of the Day

    Question of the Day

    每天提问你一个问题,这个问题的覆盖面从文化艺术到科学技术,各种都有。它会给你选项,来让你回答,并在你回答后会,告诉你正确答案,每天只有一个问题。这款问答类的skill还有Song Quiz,这款skill的玩法是放音乐,然后让你猜歌名

    Song Quiz

    三、7-Minute Workout

    7-Minute Workout

    这款skill会引导你进行7分钟的锻炼,在你锻炼的时候告诉你锻炼技巧,当你需要休息的时候,你可以告诉它暂停一下,并且它可以保存你的锻炼记录。

    四、Find My Phone

    Find My Phone

    这款skill,可以在你找不到手机的时候,告诉Alexa,Alexa会打电话给你的手机,从而让你发现自己的手机。

    还有很多skill,简单的先列举几款让人可以产生更多联想的skill。庞大数量的skill,为Echo构筑了一道坚固的护城河。

    国内的智能音箱

    近两年智能音箱迎来了井喷。就像今年的CES Aisa上智能音箱的大量涌现,参展的有阿里、小米、京东、百度、腾讯、联想、苏宁、小鸟音箱、哈曼、出门问问、若琪、DOSS等各家的智能音箱,现场几乎所有知名一点的音箱品牌都来露个脸。在国内的这些智能音箱中,销量最高的是阿里的天猫精灵和小米的小爱同学。智能音箱类似的功能我就不多说了,说两个有特色的亮点。

    一、天猫精灵

    天猫精灵推出了一款手机支架(当然官方并不是这个称谓)。可以把手机放到上面,在打开对应的APP,天猫精灵的音箱就和手机连在了一起,这将音箱的使用拓宽了,不在局限于用语音进行人机交互,语音有了视频反馈。

    天猫精灵 当查询时间时屏幕有对应的显示 通过手机摄像头来识别

    二、小爱同学

    小米的的小爱同学优势在于小米背后的整个生态,小米已经是全球最大的IOT公司。使用小爱智能音箱,在搭配上小米的其他智能硬件设备,更容易实现智能家居。

    小爱音箱宣传视频,在展示用来切换电视频道
    抖音上记录了一位男士家中使用小爱同学

    视频中,这位抖音朋友打开家门,说“小爱同学,我回来了”,小爱智能音箱回复后,就自动打开了房间的灯,和拉开了窗帘,并放起了音乐。

    三、渡鸦

    总的来说,大多数智能音箱特色并不是很明显,就像google home一样乏善可陈。除了渡鸦的raven H和raven R。


    raven H

    raven H的亮点很多,其中的一个亮点,是它的顶部是可以拆下来的。这个可拆卸模块叫做touch,它具备独立的存储,可以通过和音箱的主体构成一个局域网,实现远距离的通信。同时,在未来渡鸦准备为这块touch升级更多功能,比如说将touch随身携带,带去朋友家开party,朋友家也有raven H,就可以把自己的touch放到朋友家的音箱的主体上,放自己的音乐。


    image.png raven R
    尤其是raven R,这是最酷的音箱了,现在还没有开售,特别让人期待。强烈建议观看官方宣传视频,这才是来自未来的智能音箱。
    渡鸦 Raven R 极客公园舞台首秀

    看完后,很长一段时间,我都觉得很酷,直到我知道了妖娆花。。。

    随音乐扭动的妖娆花

    语音交互

    智能音箱是主要依赖语音进行人机交互的设备。除了智能音箱之外,语音交互已经从人机交互中独立出来。

    一、关于VUI

    通过语音的交互,可以产生不同于我们平时用的手机APP的产品。我们现在的互联网的产品的视觉交互设计叫做UI设计,而针对语音的交互设计如今有了名字为VUI设计。

    VUI
    关于VUI,有这样一篇文章,Designing Voice User Interfaces
    这篇文章写得很好,我摘其中几段说下。

    智能音箱与手机语音助手:

    1.我们向音箱提供的信息太少。比如说查询一个县的天气,而这个县的名字在全国有多个,智能音箱不知道你要查的是哪个省哪个市的。
    举了一个用语音点餐的例子,需要给餐厅提供的信息要至少有这些,才能完成一个完整的点单。


    点披萨

    2.我们向音箱提供的信息太多。关键词太多,音箱不知道你要表达什么,你的命令是什么,会容易引起音箱的理解错误。

    3.手机的语音搜索与用智能音箱的语音搜索。手机语音搜索会有很多可视化的选项,马上呈现出来,而智能音箱需要一个接一个的朗读出来,这需要的时间比手机语音搜索会多很多。


    手机语音搜索

    二、语音交互的优缺点

    在Medium上有这样一篇文章分析了语音交互的优缺点。原文在这里,Why should you care about voice interfaces?,下面,我来翻译下。

    语音交互有这样几个优点:

    1.迅速,直接。就拿设置闹钟来说,我直接用语音“给我设置明天早晨7点的闹钟”,比我唤醒手机,找到闹钟,点进去,然后在设置时间,要省去好多步。
    2.适用于一些手势操作不方便的场景。比如说开车的时候,做饭的时候。这时用语音就会更适合。
    3.使用门槛更低。我们只需要学会说话就够了,不用学习怎么使用新设备,不用看软件操作引导指南。
    4.语音比文字包含的信息更多,语音不同的语气就包含了不同的意思。

    语音交互不太试用的场景如下:

    1.在办公室之类的地方,想象一下,大家如果都在自己的工位上用语音与电脑交互,那大家会不会以为进了客服部门。
    2.需要仔细斟酌的时候,这时用语音就显得有些轻率,还是用文字,更能够让你仔细斟酌下,这样说是否合适。也更容易修改。
    3.当涉及到隐私的时候,你是不会在大庭广众之下,对着你的电脑询问“身上长痔疮了怎么办?”的。

    三、语音交互的商业实践

    语音交互的方法论有了,那实践有哪些呢?

    1.可以看下面的视频。

    点34杯咖啡,人工需要两分半,而AI收银员只需要49秒。在5月份举办的“云栖大会·武汉峰会”上,阿里云展示了AI点餐技术。客户以每秒5个字的速度,向一台机器点单,并频繁更换语句,这台机器对每次对话均作出了精准应答。

    阿里云AI收银员上岗 点34杯咖啡只要49秒

    2.语音交互放到汽车上会是一件很有前景的事,汽车相比于手机是一个更大的可移动智能设备,而且汽车在行驶时,通过语音交互相比于通过手去操控显然更为合适。


    奔驰车展 语音交互系统可以识别方言

    3.还有就是罗永浩的TNT了。罗永浩在鸟巢的发布会,很多人都把关注点放在了吐槽上,让我们抛开罗永浩这个人本身,想象这个交互方式的亮点在哪里。罗永浩在发布会上表达了这样的一个观点,以前的语音交互太依赖于语音了,即使是人类,但凭借语音也需要一段时间才能反应过来,如果连笔带划的,通过肢体语言才会更好的把信息让他人明白,所以语音交互还是需要借助其他的传统的交互,如触屏点击,这些一起来对设备完成整个命令的下达。相比于语音和视觉:一、人类更倾向于用声音去表达信息,因为更快,更便捷。二、人类更倾向于用视觉去接收信息。

    总结

    最后还是以《怎样以正确的姿势打开TNT--我对下一代交互逻辑的深入思考》中的一段话作为文章的结尾。

    “未来人机交互的瓶颈在于人类,受限于表达信息的方式,语音是表达的最优解,手的动作次之,因此语音才是最有可能在未来超越手写及键入的方式,且具备足够低的替换成本!即便有手势识别也好,有眼球追踪也好,有“语音尴尬”也好,在未来人机交互的表达上,一定是绕不过声音的!”

    文章参考:

    Why should you care about voice interfaces?

    智能语音产业井喷:AI音箱与蓝牙音箱同场“互撕”

    50 most useful Alexa skills

    Designing Voice User Interfaces

    《怎样以正确的姿势打开TNT--我对下一代交互逻辑的深入思考》

    相关文章

      网友评论

          本文标题:智能音箱与语音交互

          本文链接:https://www.haomeiwen.com/subject/wwynjftx.html