参会记录 | 天猫精灵的生命感智能语音产品设计

作者: janedaring | 来源:发表于2019-06-16 11:46 被阅读22次

参会记录 | 天猫精灵的生命感智能语音产品设计
古风咏智能养老
天猫精灵
鸿雁智悦语音吸顶灯重磅上市打造家庭小场景中控平台
新朋友
昨天我和一只“猫”对话了....（2）
阿里史上首款AI硬件设备，为何如此“听话”？
天猫精灵
CSDN创始人蒋涛：中国智能音箱大战，我为何看好小米
中科蓝讯打入车载无线充领域，AB5301A 蓝牙音频SOC获徕本

4月底随公司同事一起去参加阿里巴巴的 UCAN 大会，由于路途上发生了各种惊险的事情，我们在27号大会当天才到达杭州，错过了早上的主会场分享。但是总的来说这次大会之行的收获还是颇丰的，特别是27号下午智慧技术这场关于天猫精灵的分享。

天猫精灵的分享共由4位设计师来进行，讲述了天猫精灵的人格化塑造到场景化剧本打造再到最后的多模态设计的量化。除了许多拗口难懂的新鲜词汇，整个分享过程也是干货满满，诚意十足。接下来我将按照他们的分享顺序进行简单回顾和总结。

提起天猫精灵，大家印象中可能还是那个笨笨的人工智障音箱，“连放个歌都放不了”。但是这次大会后我了解到，天猫精灵已经不再只是一个产品，而是阿里巴巴对人工智能领域进军的一个代名词。除了最早的天猫精灵外，天猫精灵cc、方糖、火眼等等产品，系统覆盖了家居、生活、车载、娱乐、学习、购物等多种场景。

覆盖场景如此之全的天猫精灵系统是怎么设计出来的呢？

一、人格化搭建

在仆人、助手、顾问这三种角色中，仆人只能够简单回应，服从指令；助手能够清晰理解你的意图和情感；顾问能够先你所想，除了理解你的意图和情感，还能超出预期。人工智能发展到现在还只是处于从仆人向助手过渡的一个阶段。

指令界面和图形界面都是人在学习机器怎么用，但是在自然界面中，机器开始要学习人的逻辑。机器走向人的一个过程中会出现许多问题，著名的恐怖谷理论说的就是反面案例。

由于机器所存在的缺陷，导致机器在向人的靠近过程中伴随着生硬和残缺。在这个时代，设计师最底层的职责还是站在用户的角度去洞察人心，把技术按照人的方式输出。其实设计还是设计，只是对象有所不同。

要达到这个目标，设计师必须要了解人的认知构成。在日常生活中，人们了解一个人是自下而上地从他所展露出的情绪来推断行事的意图，从而了解到他的性格特质，进而推导他可能是什么样的人格。但是设计师应该自上而下地去推导一个产品的人格和表现，就像是造物主创造万物或是小说家创造人物角色一般。先定义它的人格，再从人格去推导它的个性、目标意图和情绪表征应该是什么样的。

设计师需要了解人的认知构成

定义了产品的人格后就可以避免团队内部意识不统一而造成产品的人格分裂。天猫精灵的人格是如何去定义的呢？

他们引入了 MBTI 人格类型论去定义产品人格。MBTI 人格类型论主要用在职业类型测试，将人格划分为4个维度，8个项，16种人格表达类型。选择这个理论是因为这个理论是按照职业角色来定义人格类型的。智能产品的本质就是让产品在不同场景下扮演不同的角色，比如汽车场景下应该是什么角色，教育场景下应该是什么角色等等。基于产品想要带给用户积极活跃的小助手形象，设计团队将天猫精灵设定为了 ESPF 型人格，人格特征偏外向、感性。

MBTI性格分类理论模型

定义了人格之后，要接着定义它的个性特征。这里他们又引入了一个16PF的个性特质。因为个性特质不同，所表现出来的行为倾向也不同，这就影响到了产品的多模态表达。最终他们将产品定义为拥有乐群型、兴奋型的个性。

16pf个性特质

最后他们用了一个 Arousal Valence 的情绪模型，这个情绪模型定义了100多种不同的情绪，让情绪可以量化。

Arousal Valence 情绪模型

通过这一系列的理论和思考，可以让设计师对对产品的设计自上而下有一个完整的思考链路。

为什么设计师这么注重情绪的表达？在此不得不提情绪表达的两个意义。情绪是有结果导向和过程导向两种意义的，结果导向就是情绪表达可以增强你的意图，而过程导向则是情绪可以在这个过程中和对象产生情感的共鸣。这两重意义在产品和人之间的交互过程中最显性，最直接，对体验影响也最大。

他们通过三种理论知识进行了天猫精灵的人格化搭建，设定天猫精灵是一个 ESPF 人格，并且作了一个「人格画像」，所定义的内容包括人物画像（背景信息、年龄、性别、职业），声音画像（声音语言的风格、音效），行为画像（肢体行为、表情）。最后通过 16PF 的人格特质为天猫精灵「设置意图」，什么场合说什么话、如何对待他人、社会规则、外部刺激、如何处理语言和组织信息等等。

二、具有生命感的语音交互设计

在通过上述分析设定了天猫精灵的人格、特性之后，就要设定对应的语言风格和声音风格。

影响到语言风格的要素有：句式类型、词汇选用、组织结构。根据天猫精灵的人格特征和特性表现，这三个要素分别表现为：

句式类型：使用很多的祈使句和感叹句

组织结构：使用短小精干的短语，避免使用逻辑化、句式化的长句

词汇选用：多使用一些语气词、感叹词、填充语，一些网络流行语等

在声音风格的设置上选用需要符合这个人的人格化特征的声线，它的情绪在不同的场景下处于不同的区间内。在处理任务时，情绪应该是偏稳定和冷静的；在闲聊时，情绪的表现力则可以更丰富。

通过对语音三要素（音高、语速、音量）进行参数化调节，达到不同场景下的情绪表达。另外，使用一些语音表情包来使对话更自然。

那么，仅仅是能发出类人的声音和语气就能表现生命感了吗？不，还远远不够。现在市面上大多数的语音产品也仅仅做到了这一点，我们只能用它来订外卖、查快递、播放语音等。这和我们想象中的人工智能相距甚远。原因在于我们现在的技术还只停留在语音识别和语义理解上，只是简单地用语音指令代替了过去的触控指令。但是真实世界中的语音交互不止是语音操控。人和人之间的对话充满了不确定性。

试想，我们下班回到家跟天猫精灵说，“请打开空调。”

天猫精灵会说：“好的，空调正在打开。”

如果是饭店的服务员，她会说：“先生，您觉得24度可以吗？”

如果是女朋友，她可能会说：“忙了一天，辛苦了。”

那如果是父母呢，则可能是：“不要老吹空调，对身体不好。”

服务员、女朋友、父母这三种角色对一个指令的反馈是不同的，这也就是机器的反馈和人的反馈之间存在差异。机器只会对当前的指令作出应答，但是人和人之间的交互却是经过认知推理的，认知推理的因素包括人和人之间的交互记忆、共同经历、共同的知识背景、当前的环境各种因素综合而成的。人和人之间的关系越紧密，中间经过的认知推理就越多，反馈话术也就越自然。这对机器来说需要大量的数据基础和训练。

如何用设计的方法去模拟任何人之间的互动？这里提出了一个“剧本化设计”的手段。

他们使用了一个在语音场景下最经常使用的功能作为案例去分析如何进行剧本化设计。以前当用户问天猫精灵，杭州明天有没有雨的时候，天猫精灵可能会一次性丢出大量信息，并且这些信息不是完全有用的。

显然这个不是用户想要的。那么问题来了，人们在谈论天气的时候，到底在谈论什么？用户关心的是什么？这里有两个点，一个是想要了解到天气对生活产生了什么影响，应该对应做些什么？另外，天气是一个情感闲聊的触发点，可以触发对家庭成员的关心。

因此，他们设计了一个场景话术库，按照用户对天气的敏感程度进行了以下的优先级排序，各个天气类型对应了相应的话术建立话术库，天猫精灵便在当前的基础上展开闲聊。

这一部分的分享是由阿里巴巴的语言学博士来进行的。她从语言学与人类文化的角度去理解语音产品的设计，“语言对人类来说是一个重要的标志之一，当智能产品的语音通道被打开之后，用户会自然而然地拉高对产品的期待，认为自己面对的不再是一台机器，而是要能读懂自己的情绪，甚至能够超前完成任务。”将产品设计的价值和意义拉高了一个维度。

三、多感官交互需要注意什么

很多人可能会把语音产品理解为只使用语音进行交互，但是实际场景中，用户接收的信息来源可能来自听觉，但也可能来自视觉、触觉、甚至任何一个感官。因此在语音产品的设计中需要兼顾不同感官的设计体验。因此这里提出了多感官的交互设计。

多感官的交互设计需要注意什么？

第一点是对用户场景的关注：

在多感官的设计中需要注意不同空间中的事物对使用的影响。需要考虑到用户是谁、在什么时间、在什么场所、和机器的空间关系是什么样的、是使用语音交互为主还是界面交互为主？（语音交互有范围限制，手势交互有条件限制）

天猫精灵cc的菜谱内容轻推送功能使用了语音为主，视觉为辅的方式。因为用户需要一边做菜一边用产品，注意力是非常不集中的，这个场景下的设计需要更多包容性，如加大字号、精简信息等。

第二点是注意用户感官注意力的分配：

人的注意力是有限的，用户的视觉和听觉资源都是非常有限的，如果关注于自己想要关注的信息，就容易丢失其他信息。

在车载场景下的设计需要注意的就是用户在开车的时候注意力资源很低，但是处于上下起伏的状态。在停车等待这些场景下还是有一定的注意力资源来对屏幕上的东西进行关注的。因此他们将开车场景分为安全场景、风险场景和危险场景，针对不同场景下的注意力资源采用了不同的设计策略。

最后，他们将这种设计方式总结为「HIS——人-智-场」的多感官设计方法。（其实就是人-机-环境）

HIS——人-智-场

四、设计师在语音交互时代可以做什么

最后，他们总结了他们整个团队所做的事情其实就是理解用户意图，统一产品对外表达的心智，对不同场景下产品的不同模态的规则进行量化，达到机器类人的一个目的。

不管是语音时代还是触控时代，设计师所要做的事情都是一样的，只不过载体发生了变化。这就需要设计师除了传统的交互设计和视觉设计能力之外拥有更多维度的知识，如语言学，懂的知识越多，看待问题就能越全面。也需要设计师从更全局的角度去看待产品，不再仅仅专注于手中的一亩三分地。这也是我在这次大会中学到的最重要的东西。

我在这次大会中学到的东西

正如第二个分享者张婉在公众号文章中写到的：

“语音交互的特殊性为体验设计师提出了新的要求和挑战。人类的语言能力是天生的，用户的语言行为模式不会因为交互对象是计算机而发生改变。传统的交互方式要求用户学习计算机的规则，而在语音交互中，计算机必须完全顺应用户的逻辑。因此，设计师首先要理解“语言”的本质，理解用户的“语言逻辑”，才有可能设计出流畅自然的语音交互体验。其次，设计师还必须理解技术的实现机制，才能和技术配合，将技术能力最大化，并和技术携手不断拓宽彼此的边界。

语音交互渗透人类生活场景的方方面面，这就对我们设计师提出了更高的综合素质的要求。阿里常说“既要、又要、还要”，对语音交互的体验设计师而言，既要具备语言学能力、技术背景、交互设计能力，又要有产品思维、营销思维、结构化能力、可视化能力，甚至是编剧能力，还要有一定高度的哲学思考。在人工智能的时代中，产品的形式不断突破人类的认知边界，如何理解人、如何理解人的认知、如何为计算机构建世界观，这都是值得我们思考的哲学命题。”

最后还有两个字：「匠心」。很多人或许觉得现在的互联网时代，谈「匠心」或许只是一个噱头，卖情怀。但是当我看到他们在我们的机器还不够智能的情况下，真的是在一点一点打磨每一个场景，每一句话。试图用一百分的匠心去弥补产品在技术上和用户之间的鸿沟，我真的佩服这个团队。

这次大会让我深切感受到了与大厂的设计师还存在很大的差距，并且这个差距正在一步一步拉大。我们所能够做的就是多吸取不同维度的知识，不给自己设限；多了解用户，才能做出更贴近用户期望的产品。

p.s. 以上内容是通过在大会中学习到的内容和会后录音整理而成，配图是我在公司内部二次分享时做的ppt。知识成果归天猫精灵团队所有，我只是知识的搬运工。

参会记录 | 天猫精灵的生命感智能语音产品设计
4月底随公司同事一起去参加阿里巴巴的 UCAN 大会，由于路途上发生了各种惊险的事情，我们在27号大会当天才到达杭...
古风咏智能养老
《咏智能养老》温志龄智能养老出高招，打理精灵赖天猫。电...
天猫精灵
天猫精灵相信大家都不陌生了，阿里巴巴旗下的智能语音音箱及语音系统的名字。实体硬件有天猫精灵X1、M1、方糖。某宝...
鸿雁智悦语音吸顶灯重磅上市打造家庭小场景中控平台
作为融入阿里生态后的首款天猫精灵inside智能产品（inside即天猫精灵内置于产品之中）鸿雁智悦AI语音吸顶...
新朋友
按照时间来说她应该是我的老朋友了，而跟她接触的次数来讲她是我的新朋友。她就是语音智能助手：天猫精灵。 “天猫精灵”...
昨天我和一只“猫”对话了....（2）
我也有只猫? 特别的是她是一只智能喵天“猫” 我的天“猫”精灵有她欢乐多有多每天早上都有她叫我起床【超...
阿里史上首款AI硬件设备，为何如此“听话”？
2017年7月6日，阿里人工智能实验室发布了旗下首款智能语音终端设备天猫精灵X1。天猫精灵X1内置第一代中文人机交...
天猫精灵
在还未放假时，我在干妈妈家看见了天猫精灵，它是一个智能语音精灵，我很喜欢，干妈妈便答应给我买一个。 ...
CSDN创始人蒋涛：中国智能音箱大战，我为何看好小米
本视频上半部分为天猫精灵、小米智能音箱、叮咚智能音箱的简单测评；下半部分为CSDN创始人蒋涛对目前语音交互技术及趋...
中科蓝讯打入车载无线充领域，AB5301A 蓝牙音频SOC获徕本
近期我爱音频网拆解了一款自带天猫精灵智能语音系统的徕本车载无线充支架[https://mp.weixin.qq.c...