模拟自然语言的行为:我要跟你说话,我会先跟你打招呼,“你好xxx”一个意思。
用户说的话-》语音识别引擎-》语言理解和处理(NLU&NLP)-》云端处理-》获得关键信息
唤醒方式:ABAB最好,如滴答滴答。选择各种声音进行大量的训练。
关键维度
1、工具维度
① 准确性:准确执行用户的指令
错误1:ASR识别错误。
输入机制干预:
![](https://img.haomeiwen.com/i20569424/b14ef388f77fa2e9.png)
解析机制容错:
![](https://img.haomeiwen.com/i20569424/9e14e2064f901ab6.png)
错误2:用户表达逻辑错误或不完整
![](https://img.haomeiwen.com/i20569424/18633548c40e7104.png)
错误3:多结果选择错误
![](https://img.haomeiwen.com/i20569424/301e9c5c629bc4aa.png)
② 灵活性:支持用户灵活的行为方式
针对不同场景设置不同的语音逻辑
![](https://img.haomeiwen.com/i20569424/15e2871c6570d4fc.png)
同一需求下的灵活性
![](https://img.haomeiwen.com/i20569424/a85f73b273260a09.png)
上下文的灵活性
![](https://img.haomeiwen.com/i20569424/fb60d0c8deba1b5c.png)
③ 及时性:及时响应用户的请求
![](https://img.haomeiwen.com/i20569424/7212b73155b18de5.png)
唤醒反馈-灯光+人声 :100ms/300ms/500ms/700ms不同的感受
唤醒反馈-形式(灯光+音效):100ms/300ms/500ms/700ms不同的感受
根据反馈形式选择反馈时间,不同的形式下合适的时间不同
④ 有效性:用户清晰理解的才是有效的
增加内容的启示性:明显区分度,如具体声音信息,听音乐的时候增加闹铃+具体闹钟语音提示
增加内容可见性:如降温了,多加件衣服
尽量简单的传递信息:关键词信息
增加对话内容的关联性: 重复询问,动作确认,内容确认
⑤ 可靠性:是否帮助用户做决策
有多个结果,考虑贴近用户发那个
2、语言对话维度
口语化感知:表达方式
提供多样化回答,避免呆板
口语化表达,不用书面语
增加口语化连接词,提升口语化感知
增加对话标识,提升口语化感知
相互影响:对话沟通
开放的:内容范围。问到一个没有的功能的时候,抱歉,我还没有xx,但我可以提醒你xxx
网友评论