智能音箱与语音交互

作者: c4a1d989518e | 来源:发表于2018-06-17 01:25 被阅读109次

智能音箱与语音交互
周鸿祎亲自调音，360AI智能音箱仅售199元，网友：太感人
第30周+《AI入门系列 - 语音交互的模型及概念》+林灿业+新
中国电信加速布局智慧家庭将发布多款智能新品
CSDN创始人蒋涛：中国智能音箱大战，我为何看好小米
人工智能语音交互技术与应用
封闭域/开放域对话设计方法论
人机对话系统实现大纲
智能语音交互产品该“叫”什么名字
智能音箱结束寡头格局？

如今，语音作为一种人与机器交流的方式，已经屡见不鲜。你可能在Siri刚火，但技术却才刚开始起步的阶段试用过，从那以后就在也没用过。而且就算使用语音，我们好像也就用语音离不开老三套：天气怎么样？今天有什么新闻？放音乐！

触屏手机出现后，手写输入成为了手机厂商宣传视频的一大亮点，我记得当初看主打商务人士的金立手机，在视频广告中，商务人士在手机侧边缘掏出触控笔，坐在商务车的后座上，用触控笔写字发短信。

金立与刘德华

然而到今天，使用手写输入的人已经很难见到了。乔布斯在07年演讲时，宣传多点触控技术的时候，就抱怨了一通手写笔这样鸡肋的产品。相比于全键盘的输入方式，我们有十个手指来去输入文字，而用手写，对屏幕却只有一个触控点，这严重降低输入效率，尤其是对于日常使用英文的人来说。

那么，语音的交互技术是否也像是手写输入一样，是一项有噱头，却很快沦没的技术呢？

最早的语音产品

故事要从上个世纪二十年代讲起。下面这张图片中的就是最早的能够响应语音命令的产品。图片中的这只狗名叫Rex，它是一个普通的玩偶，在它身上没有任何科技元素，真正的技术是在Rex的小房子里。你向图片中那样，把Rex放在小房子了，然后向他喊“Rex”，Rex就会“跑”出来。实际上是被弹出来。

Radio Rex

Rex和它的窝

Rex窝的底部

Rex窝的拆解

向它大声喊Rex，这时的声音震动频率会有500Hz，上图中房子那个银色的像铃铛的东西会接收到，然后转换为信号，最终导致弹性装置的释放。

国外的Google Home和Echo

我在公司同时使用了这两款产品一段时间，这两款产品在国内使用，都需要科学上网，而且至少是需要从路由器上就能科学上网。使用google home，需要在手机上安装google home的APP，我用的是Android手机，还需要下载一个google的套装才能下载这款APP，相比于google home，Echo的APP的使用就相对简单，在手机上直接下载Alexa安装好就好。

Google Home和 Amazon Echo

尽管今年第一季度，Google Home的出货量超过了Echo，媒体首先就按耐不住了，终于等来了一个大新闻，终于有人在智能语音市场强势反击亚马逊的“老大哥”地位。

确实从广告宣传、合作伙伴生态、还是销量上看，谷歌都有不俗的表现。但在智能语音生态上，谷歌要赶超亚马逊仍有很长的路。亚马逊在语音上建立了一个庞大的生态系统，这其中包括三个部分，具体可以参见这篇文章亚马逊30,000,000智能音箱帝国背后的核武器。

我在使用Echo的一段时间里，集中使用了Echo中的skill，也就是文章中提到的亚马逊的三柄利剑之一的skill。什么是skill？可以把亚马逊的Echo智能音箱想作我们平时使用的苹果手机，而skill就是我们从Apple store中下载的APP。这些skill已经有4.5万个可以下载。有关于盘点Echo智能音箱的skill的文章，几乎没有，我在外网找到了这样一篇文章50 most useful Alexa skills,在这篇文章里，分类别的盘点了Alexa的50款优秀的skill。

用户在使用Echo时需求排名

我选择其中几个有意思的介绍下。

一、The Magic Door

这款技能，详细的介绍可以参见这里The Magic Door Brings Alexa a New World of Interactive Adventure

The Magic Door

这款游戏有10个故事线，和数百的声音效果。在使用的时候，对Echo说“Alexa, open The Magic Door”（Echo是智能音箱的产品名，Alexa是智能音箱中的助手的名字），这款游戏就启动了，一声打开魔法大门的声音就从Echo音箱里传出来，然后我们就进入了故事。Alexa会给你提供选择，问你下一步是去山上还是去海边，这并不是一款简简单单只用语言沟通的问答选择游戏，而是一个故事，在故事的场景中，为了有更好的沉浸感，Echo会发出各种声音特效，比如说在海边，就有海水拍岸的声音。游戏中，你需要做的也并不是很复杂，比如Alexa会告诉你，桌子旁有钥匙，而你需要做的是告诉Alexa去拾起它。

二、Question of the Day

Question of the Day

每天提问你一个问题，这个问题的覆盖面从文化艺术到科学技术，各种都有。它会给你选项，来让你回答，并在你回答后会，告诉你正确答案，每天只有一个问题。这款问答类的skill还有Song Quiz,这款skill的玩法是放音乐，然后让你猜歌名

Song Quiz

三、7-Minute Workout

7-Minute Workout

这款skill会引导你进行7分钟的锻炼，在你锻炼的时候告诉你锻炼技巧，当你需要休息的时候，你可以告诉它暂停一下，并且它可以保存你的锻炼记录。

四、Find My Phone

Find My Phone

这款skill，可以在你找不到手机的时候，告诉Alexa，Alexa会打电话给你的手机，从而让你发现自己的手机。

还有很多skill，简单的先列举几款让人可以产生更多联想的skill。庞大数量的skill，为Echo构筑了一道坚固的护城河。

国内的智能音箱

近两年智能音箱迎来了井喷。就像今年的CES Aisa上智能音箱的大量涌现，参展的有阿里、小米、京东、百度、腾讯、联想、苏宁、小鸟音箱、哈曼、出门问问、若琪、DOSS等各家的智能音箱，现场几乎所有知名一点的音箱品牌都来露个脸。在国内的这些智能音箱中，销量最高的是阿里的天猫精灵和小米的小爱同学。智能音箱类似的功能我就不多说了，说两个有特色的亮点。

一、天猫精灵

天猫精灵推出了一款手机支架（当然官方并不是这个称谓）。可以把手机放到上面，在打开对应的APP，天猫精灵的音箱就和手机连在了一起，这将音箱的使用拓宽了，不在局限于用语音进行人机交互，语音有了视频反馈。

天猫精灵

当查询时间时屏幕有对应的显示

通过手机摄像头来识别

二、小爱同学

小米的的小爱同学优势在于小米背后的整个生态，小米已经是全球最大的IOT公司。使用小爱智能音箱，在搭配上小米的其他智能硬件设备，更容易实现智能家居。

小爱音箱宣传视频，在展示用来切换电视频道

抖音上记录了一位男士家中使用小爱同学

视频中，这位抖音朋友打开家门，说“小爱同学，我回来了”，小爱智能音箱回复后，就自动打开了房间的灯，和拉开了窗帘，并放起了音乐。

三、渡鸦

总的来说，大多数智能音箱特色并不是很明显，就像google home一样乏善可陈。除了渡鸦的raven H和raven R。

raven H

raven H的亮点很多，其中的一个亮点，是它的顶部是可以拆下来的。这个可拆卸模块叫做touch，它具备独立的存储，可以通过和音箱的主体构成一个局域网，实现远距离的通信。同时，在未来渡鸦准备为这块touch升级更多功能，比如说将touch随身携带，带去朋友家开party，朋友家也有raven H，就可以把自己的touch放到朋友家的音箱的主体上，放自己的音乐。

image.png

raven R
尤其是raven R，这是最酷的音箱了，现在还没有开售，特别让人期待。强烈建议观看官方宣传视频，这才是来自未来的智能音箱。
渡鸦 Raven R 极客公园舞台首秀

看完后，很长一段时间，我都觉得很酷，直到我知道了妖娆花。。。

随音乐扭动的妖娆花

语音交互

智能音箱是主要依赖语音进行人机交互的设备。除了智能音箱之外，语音交互已经从人机交互中独立出来。

一、关于VUI

通过语音的交互，可以产生不同于我们平时用的手机APP的产品。我们现在的互联网的产品的视觉交互设计叫做UI设计，而针对语音的交互设计如今有了名字为VUI设计。

VUI
关于VUI，有这样一篇文章，Designing Voice User Interfaces
这篇文章写得很好，我摘其中几段说下。

智能音箱与手机语音助手：

1.我们向音箱提供的信息太少。比如说查询一个县的天气，而这个县的名字在全国有多个，智能音箱不知道你要查的是哪个省哪个市的。
举了一个用语音点餐的例子，需要给餐厅提供的信息要至少有这些，才能完成一个完整的点单。

点披萨

2.我们向音箱提供的信息太多。关键词太多，音箱不知道你要表达什么，你的命令是什么，会容易引起音箱的理解错误。

3.手机的语音搜索与用智能音箱的语音搜索。手机语音搜索会有很多可视化的选项，马上呈现出来，而智能音箱需要一个接一个的朗读出来，这需要的时间比手机语音搜索会多很多。

手机语音搜索

二、语音交互的优缺点

在Medium上有这样一篇文章分析了语音交互的优缺点。原文在这里，Why should you care about voice interfaces?,下面，我来翻译下。

语音交互有这样几个优点：

1.迅速，直接。就拿设置闹钟来说，我直接用语音“给我设置明天早晨7点的闹钟”，比我唤醒手机，找到闹钟，点进去，然后在设置时间，要省去好多步。
2.适用于一些手势操作不方便的场景。比如说开车的时候，做饭的时候。这时用语音就会更适合。
3.使用门槛更低。我们只需要学会说话就够了，不用学习怎么使用新设备，不用看软件操作引导指南。
4.语音比文字包含的信息更多，语音不同的语气就包含了不同的意思。

语音交互不太试用的场景如下：

1.在办公室之类的地方，想象一下，大家如果都在自己的工位上用语音与电脑交互，那大家会不会以为进了客服部门。
2.需要仔细斟酌的时候，这时用语音就显得有些轻率，还是用文字，更能够让你仔细斟酌下，这样说是否合适。也更容易修改。
3.当涉及到隐私的时候，你是不会在大庭广众之下，对着你的电脑询问“身上长痔疮了怎么办？”的。

三、语音交互的商业实践

语音交互的方法论有了，那实践有哪些呢？

1.可以看下面的视频。

点34杯咖啡，人工需要两分半，而AI收银员只需要49秒。在5月份举办的“云栖大会·武汉峰会”上，阿里云展示了AI点餐技术。客户以每秒5个字的速度，向一台机器点单，并频繁更换语句，这台机器对每次对话均作出了精准应答。

阿里云AI收银员上岗点34杯咖啡只要49秒

2.语音交互放到汽车上会是一件很有前景的事，汽车相比于手机是一个更大的可移动智能设备，而且汽车在行驶时，通过语音交互相比于通过手去操控显然更为合适。

奔驰车展

语音交互系统可以识别方言

3.还有就是罗永浩的TNT了。罗永浩在鸟巢的发布会，很多人都把关注点放在了吐槽上，让我们抛开罗永浩这个人本身，想象这个交互方式的亮点在哪里。罗永浩在发布会上表达了这样的一个观点，以前的语音交互太依赖于语音了，即使是人类，但凭借语音也需要一段时间才能反应过来，如果连笔带划的，通过肢体语言才会更好的把信息让他人明白，所以语音交互还是需要借助其他的传统的交互，如触屏点击，这些一起来对设备完成整个命令的下达。相比于语音和视觉：一、人类更倾向于用声音去表达信息，因为更快，更便捷。二、人类更倾向于用视觉去接收信息。

总结

最后还是以《怎样以正确的姿势打开TNT--我对下一代交互逻辑的深入思考》中的一段话作为文章的结尾。

“未来人机交互的瓶颈在于人类，受限于表达信息的方式，语音是表达的最优解，手的动作次之，因此语音才是最有可能在未来超越手写及键入的方式，且具备足够低的替换成本！即便有手势识别也好，有眼球追踪也好，有“语音尴尬”也好，在未来人机交互的表达上，一定是绕不过声音的！”

文章参考：

Why should you care about voice interfaces?

智能语音产业井喷：AI音箱与蓝牙音箱同场“互撕”

50 most useful Alexa skills

Designing Voice User Interfaces

《怎样以正确的姿势打开TNT--我对下一代交互逻辑的深入思考》

智能音箱与语音交互
如今，语音作为一种人与机器交流的方式，已经屡见不鲜。你可能在Siri刚火，但技术却才刚开始起步的阶段试用过，从那以...
周鸿祎亲自调音，360AI智能音箱仅售199元，网友：太感人
说起来，智能音箱也不是什么新鲜事物，目前市面上智能音箱产品也很多，纵观目前智能音箱产品，语音交互和智能家居联动是未...
第30周+《AI入门系列 - 语音交互的模型及概念》+林灿业+新
一、语音交互的模型手机上的语音助手以及各种智能音箱等，你和它说话后，它可以听懂你的话并作出回应，这种人机交互方式...
中国电信加速布局智慧家庭将发布多款智能新品
随着语音交互技术的不断发展，应用场景从语音助手、智能音箱等加速扩围。在语音交互产业面临爆发的情况下，阿里巴巴、百度...
CSDN创始人蒋涛：中国智能音箱大战，我为何看好小米
本视频上半部分为天猫精灵、小米智能音箱、叮咚智能音箱的简单测评；下半部分为CSDN创始人蒋涛对目前语音交互技术及趋...
人工智能语音交互技术与应用
了解人工智能详细内容：语音交互技术与应用（课程主要讲解人工智能智能语音相关技术，包括语音识别、人机交互、语音合...
封闭域/开放域对话设计方法论
封闭域在今天，封闭域对话还是占据语音交互产品的主流位置，智能音箱，智能车载，智能家电都是要以指令类对话作为主要要...
人机对话系统实现大纲
一、语音智能交互服务技术概述二、语音智能交互系统总体设计1、语音智能交互基本架构2、语音智能技术架构（算法层、数据...
智能语音交互产品该“叫”什么名字
和很多智能语音交互产品一样，当你使用搭载DuerOS系统的智能音箱的时候，需要多次这样叫出它的名字——“小度小度”...
智能音箱结束寡头格局？
配图来自Canva可画自2014年亚马逊发布全新概念的智能音箱产品后，这种具有语音交互、智能家居控制功能的产品，...