如何从零设计车载语音软件功能

作者: Matt小特 | 来源:发表于2020-04-29 16:01 被阅读0次

随着车载智能硬件的联网普及，越来越多的车辆配装了语音识别功能。目前，在车载系统最重要的功能莫过于车载语音了，个人接触车载语音功能多年，在这里想给大家分享一下从语音服务集成方的角度，如何从零规划设计车载语音的功能，欢迎大家一起交流讨论。

首先需要注明的是应用软件功能，因为语音功能还涉及到嵌入式软件、硬件设计和参数标定等问题，这些都不在本文做介绍。文中概述信息可能存在时效性问题，以文章发布时间为准，欢迎指出错误之处。

概述——国内车载语音市场的同质化

车载市场语音技术方案公司主要有：科大讯飞、Nuance、百度、思必驰、云知声等等。由于腾讯的语音服务在车载领域推广范围和力度均较小，因此腾讯的语音服务在服务和质量上比市场上的主流方案商要差一些，后续不排除发力的可能。阿里的语音服务主要应用在AliOS，目前主要量产在荣威车型上。

主流的方案商都会提供以下几项服务：

语音识别能力——注：乘用车，车速低于80KM/H，在密闭空间内的识别率都可以保持在95%以上

语音合成能力——注：TTS播报的高拟人化体验是比较考验研发投入情况的，各家的实际体验效果差别较大

方言口语理解——注：高鲁棒性是关键，否则语音功能就是鸡肋

语义识别——注：在线服务整合，各家的资源服务整合能力基本相同，稍有差异

多轮对话——注：个别厂家支持特定场景多轮对话，实话说目前的体验都不是很好

市场竞争激烈，迄今为止没有一条很明确的商业模式，大家都是处于资本投入的阶段。每家功能都在逐渐趋同，也在从纯技术提供商转向技术平台化，通过提供整体解决方案商的角色进行转变。

蔚来汽车的NOMI语音助手

车载语音解决方案合作模式

对于开发能力一般，定制化要求不高的车载项目，在接入语音服务的时候，基本都会采用方案商提供的集成化较高的语音SDK进行二次开发，或是采用服务商的APK进行简单的定制和适配工作。这样的好处是可以节省大量的开发成本，也可以保证核心语音服务模块的质量。

车内搭载语音服务的智能硬件

智能车机：高度集成的系统平台，可以更好的支持语音使用场景，让语音、系统和车辆三位一体，产生更好的联动效果；

智能后视镜：一般以后装形式配装为主，相对智能车机来说智能后视镜的系统稍微轻量化一些，着重把更多的系统资源给到行驶记录功能，语音功能只会负责一些简单的任务处理；

智能HUD：核心资源聚焦驾驶过程中的车辆、道路、安全等信息的投射，比较注重视觉呈现的质量，语音功能作为一个重要功能辅助操作；

车载音箱伴侣：不管是在车载还是家居音箱上，语音服务都是音箱产品最核心的功能，而车载音箱更多的是针对车内空间的场景，主要聚焦在用户多轮次的交互对话体验和车生活服务的丰富度

流程——核心流程拆解

业务架构图

这里面会牵涉到自建TSP平台、语音服务提供商、硬件厂商、互联网服务提供商、三方硬件等多方角色。整个业务架构是以硬件为载体，服务平台化集成的形式，整体打包后提供给终端车主用户。

业务流程图

车主用户出发语音操作，主要逻辑点在于判断自建平台还是三方平台，需要对数据进行筛选，对应的准备服务资源，并执行返回结果。

如果没有定制化的自建服务资源平台的话，可以对业务流程做适当的裁剪，此流程图仅供大家参考。

功能——模块设计

车载语音主要分为以下几个功能模块，不含定制语音语义功能，对业务部分已作相应裁剪。

01-语音交互

我们都知道，语音启动的方式主要分为两种，界面点击和语音唤醒。

我们在设计语音唤醒功能点的时候，都会在启动步骤判断并记录语音唤醒方式，语音服务调起后会呈现提示信息和语音录取状态的反馈，在识别过程的主要会判断语音录入是否正常，如果是正常的录入信息则会请求后台，并返回对应的识别结果，如果有打断的情况需要重新开始语音流程。

02-语义的场景化设计

车载语音的语义的丰富度，直接影响到语音功能的直接使用体验。支持的语义少，会让用户觉得语音功能过于简单，未能满足用户的场景需求，从而丧失对产品功能的好感度，放弃使用语音功能。如何定义用户满意度和语义完整度之间的映射关系，这需要针对实际工作过程中对于用户的调研分析和经验总结得出需求与产品之间的对应关系。

车载场景的语义细分后，主要分为以下几个场景——

导航场景

音乐/电台场景

电话场景

系统控制类

车辆控制类

定制化服务类

如下图所示（针对业务需求部分已进行裁剪处理，请勿生搬硬套），可以对相应的场景再进行进一步的细分。当然语义的场景非常多，针对车载的场景核心功能场景已覆盖，更多的场景需要根据车型的市场客户需求去进行定制化开发。我们可以参考马斯洛需求层次理论，基于驾驶场景的去分类场景需求，从而来指导我们语义设计策略。

03-帮助&设置

帮助：提示的场景主要有2种，第一是在语音唤醒首页（语音非全局显示的不推荐），第二是在语音使用失败或是等待时给出提示信息，帮助引导用户正确使用语音功能。

设置：这里面主要会对语音的基础功能使用进行设置操作，比如常用的免唤醒开关、唤醒词、语音的音源逻辑、语音主题包的变更设置等。

播报——TTS语音播报

作为与用户交互流程的最后一步，语音播报的功能可以说是与用户息息相关。TTS（Text To Speech）语音播报主要是通过AI技术把文本信息进行智能化合成，转述成语音信息播报给用户，从而给用户一种智能拟人化的交互体验。

目前行业方案的AI合成音更多的是基于录制的基础语音素材进行二次加工，本质上还无法脱离基础语音素材录制这个制约条件，所以语音包的种类数量和质量提升都比较慢。因此，由于TTS功能在产品设计上受制于服务商的综合能力，所以在产品功能集成上，我们会更加聚焦如何更好的提升语音交互对话的体验。

人机对话的主要诉求是信息的交换，其次是对话在交互体验上能够让用户感觉到愉悦，最后，在完成整个对话阶段，有良好的引导和错误规避策略，这样可以保证在满足用户需求的时候可以提供更多的赋能，而在无法满足用户需求的时候可以通过迂回策略来降低用户的不良体验。

车载语音功能结语

就目前语音功能整体情况来说，车载语音产品整体的状态和表现都不是很成熟，人工智能的应用更多的还是停留在初级应用的阶段，如何更好的利用AI技术提升服务质量，如何通过NLP技术提升多轮次交互体验，如何更好的丰富平台内容资源，这些都是需要更多的资源投入和大量的时间来慢慢完善的。

本文更多的介绍车载语音软件的主要功能设计和使用场景分析，主要是想帮助大家更好的认识车载语音。如何让语音功能更有效的提升用户使用体验和满意度，则需要针对每个业务的实际需求和目标用户群体特征去进行更深入的差异化研究和设计。

网友评论

本文标题：如何从零设计车载语音软件功能

本文链接：https://www.haomeiwen.com/subject/iecnwhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！