ASR语音识别学习总结

作者: 做梦的小鱼 | 来源:发表于2017-12-11 20:50 被阅读22次

    1、理解:将语音转化成文字的过程,相当于人的耳朵

    2、语音识别的过程:输入->编码->解码->输出

    3、语音识别大体大体可以分成两种方式,即“传统”方式和“端到端”方式。两种方式的区别主要在于声学模型的不同,“传统”方式使用的声学模型是HMM(隐马尔可夫),“端到端”方式采用的声学模型为DNN(深度神经网络)。

    4、远场语音识别相关的概念

    a、语音激活检测(VAD)

    场景:对于近场语音识别(比如手机语音输入时,手按下按钮开始输入,松开时结束输入),通常信噪比(SNR)比较高,这种情况下的识别度能够达到一个较高的水平;但是远场语音识别的场景时,往往信噪比(SNR)会比较低,就必须使用语音激活检测(VAD)

    作用:判断什么时候有声音什么时候没有声音

    b、语音唤醒(VT)

    场景:近场语音识别时,往往是按住按钮进行语音输入。但是对于远场语音识别,往往在语音激活检测(VAD)到有声音之后,需要一个唤醒语言进行语音唤醒(VT),就好像一个人的名字一样,当叫这个人的名字时,才能引起人群中这个人的注意,然后做出相应的反应

    其他:

    ①长度一般3个音节以上

    ②低功耗要求

    ③唤醒时间要短,目前只有亚马逊的echo做到了在1.5S内唤醒,其他的设备一般需要3S的时间才能唤醒

    ④要尽可能的减少误报和漏报(误报是没有叫它时进行了唤醒,漏报是叫它时没有唤醒)。误报和漏报一般和唤醒次有关,唤醒词过长,能够有效减少误报,但是漏报的概率会上升;唤醒词过短,漏报的概率会减少,但是误报的概率会上升

    c、麦克风阵列(MA)

    能干什么:①声音增强 ②声源定位 ③去混响(声音在室内传播时,回声会和直达声混合,叫做混响)④声源提取和分离

    目前存在的问题:①距离太远的情况下,处理算法还有提升的控价 ②对于移动场景,一方面麦克风的数量不能太多,另一方面体积也不能太大 ③对于声源比较复杂的环境,麦克风阵列技术还有很大的提升空间

    d、全双工

    e、纠错相关

    语音纠错包括用户主动纠错和机器自动纠错。

    自动纠错可以根据数据来源分为3中:①本地为主 ②本地+云端 ③云端为主

    5、当前技术的边界

    目前各公司在自己的宣传中声称语音识别率达97%甚至98%,但是这个识别率一般是在安静的环境、语速较慢,语言标准等的情况下统计出来的。进入实际场景,可能还做得不够好。

    相关文章

      网友评论

        本文标题:ASR语音识别学习总结

        本文链接:https://www.haomeiwen.com/subject/kvywixtx.html