美文网首页
语音交互流程

语音交互流程

作者: 西瓜古古丫 | 来源:发表于2022-01-17 19:18 被阅读0次

    一、流程概述

    语音交互的完整流程大致为:
    唤醒→语音识别(ASR)→自然语音处理(NLP)→语音合成(TTS)
    可以类比为:
    打招呼→耳朵→大脑→嘴巴

    二、步骤详解

    1、唤醒

    (1)定义:将设备从休眠态变为工作态
    (2)唤醒方式:语音或按键。语音可设置唤醒词,按键一般是长按电源键0.5s。
    (3)语音唤醒的工作原理:
    a. 基于模板匹配:把唤醒词转换成特征序列,将录入的语音和特征序列进行匹配,匹配就唤醒,否则仍继续休眠
    b. 基于隐马尔可夫模型:将唤醒词和其他音频分别建立模型,录入的语音分别传入两个模型,然后比对模型得分,根据得分高低比对来决定是否唤醒
    c.基于神经网络:取决于是否用到了神经网络的原理
    (4)唤醒词的设计
    简单来说就是:不短不长,不重不难。解释一下,唤醒词应该尽量精简,避免难以记忆,又不能过于短,容易误唤醒;每个厂商一般都会设计自己特定的默认唤醒词,其一般会含有语音助手的名称,避免和其他厂商重复。用户也可以自定义唤醒词。
    (5)唤醒正确率的衡量指标
    唤醒率、误唤醒率。
    a. 唤醒率常用百分比表示。模拟用户的使用场景,多人多次测试,重复说唤醒词,被成功唤醒的占比就是唤醒率。
    b. 误唤醒率常用24小时被误唤醒多少次表示。模拟用户的使用场景,多人多次测试,重复说非唤醒词,被成功唤醒的占比就是误唤醒率。

    2、语音识别(ASR)

    (1)定义:将声音转化为文字
    (2)流程:声音→数字向量→文字
    http://www.woshipm.com/ai/2620327.html

    3、自然语音处理(NLP)

    (1)定义:用于将用户的指令转换为结构化的、机器可以理解的语言。
    (2)处理方式:基于规则;基于数据训练模型
    (3)关键词:技能、意图、槽位
    http://www.woshipm.com/pmd/827437.html

    4、语音合成(TTS)

    (1)定义:将文本转换成语音
    (2)方法:拼接法、参数法
    http://www.woshipm.com/pmd/1381081.html

    相关链接:
    http://www.woshipm.com/pd/4098761.html
    http://www.woshipm.com/ai/2620327.html

    相关文章

      网友评论

          本文标题:语音交互流程

          本文链接:https://www.haomeiwen.com/subject/fvbvaltx.html