ASR语音识别学习总结

作者: 做梦的小鱼 | 来源:发表于2017-12-11 20:50 被阅读22次

ASR语音识别学习总结
语音识别中英文术语
阅读“百度语音文档”
语音识别之--音频编解码
ASR 语音识别
语音产品设计-学习（一）
第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸
百度语音识别
语音识别及交互
语音交互流程

1、理解：将语音转化成文字的过程，相当于人的耳朵

2、语音识别的过程：输入->编码->解码->输出

3、语音识别大体大体可以分成两种方式，即“传统”方式和“端到端”方式。两种方式的区别主要在于声学模型的不同，“传统”方式使用的声学模型是HMM（隐马尔可夫），“端到端”方式采用的声学模型为DNN（深度神经网络）。

4、远场语音识别相关的概念

a、语音激活检测（VAD）

场景：对于近场语音识别（比如手机语音输入时，手按下按钮开始输入，松开时结束输入），通常信噪比（SNR）比较高，这种情况下的识别度能够达到一个较高的水平；但是远场语音识别的场景时，往往信噪比（SNR）会比较低，就必须使用语音激活检测（VAD）

作用：判断什么时候有声音什么时候没有声音

b、语音唤醒（VT）

场景：近场语音识别时，往往是按住按钮进行语音输入。但是对于远场语音识别，往往在语音激活检测（VAD）到有声音之后，需要一个唤醒语言进行语音唤醒（VT），就好像一个人的名字一样，当叫这个人的名字时，才能引起人群中这个人的注意，然后做出相应的反应

其他：

①长度一般3个音节以上

②低功耗要求

③唤醒时间要短，目前只有亚马逊的echo做到了在1.5S内唤醒，其他的设备一般需要3S的时间才能唤醒

④要尽可能的减少误报和漏报（误报是没有叫它时进行了唤醒，漏报是叫它时没有唤醒）。误报和漏报一般和唤醒次有关，唤醒词过长，能够有效减少误报，但是漏报的概率会上升；唤醒词过短，漏报的概率会减少，但是误报的概率会上升

c、麦克风阵列（MA）

能干什么：①声音增强 ②声源定位 ③去混响（声音在室内传播时，回声会和直达声混合，叫做混响）④声源提取和分离

目前存在的问题：①距离太远的情况下，处理算法还有提升的控价 ②对于移动场景，一方面麦克风的数量不能太多，另一方面体积也不能太大 ③对于声源比较复杂的环境，麦克风阵列技术还有很大的提升空间

d、全双工

e、纠错相关

语音纠错包括用户主动纠错和机器自动纠错。

自动纠错可以根据数据来源分为3中：①本地为主 ②本地+云端 ③云端为主

5、当前技术的边界

目前各公司在自己的宣传中声称语音识别率达97%甚至98%，但是这个识别率一般是在安静的环境、语速较慢，语言标准等的情况下统计出来的。进入实际场景，可能还做得不够好。

网友评论

本文标题：ASR语音识别学习总结

本文链接：https://www.haomeiwen.com/subject/kvywixtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

ASR语音识别学习总结

相关文章