第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸

作者: 林灿业 | 来源:发表于2019-07-28 10:39 被阅读1次

第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸
第32周+《AI入门系列 - 语音识别基本概念2》+林灿业+新学
第33周+《AI入门系列 - 语音识别基本概念3》+林灿业+新学
第34周+《AI入门系列 - 语音合成》+林灿业+新学霸社群
C# 基于Accord.Audio和百度语言识别
第30周+《AI入门系列 - 语音交互的模型及概念》+林灿业+新
第43周+《聊聊场景》+林灿业+新学霸社群
第41周+《聊聊沟通》+林灿业+新学霸社群
第46周+《没有学习》+林灿业+新学霸社群
第44周+《聊聊迭代》+林灿业+新学霸社群

一、语音识别简介

语音识别（ASR）：计算机把声音转化成文本的过程，相当于人的耳朵，让机器可以听到语音。

语音识别从音源拾取距离上，可分为近场语音识别和远场语音识别。近场语音识别比较常见的应用场景就是语音输入法，一只手按住，对着去讲想输入的话，音源距离近，信噪比高（信噪比简称SNC，信号与噪音的比例，值越大，表示信号越好），获取到的声音为纯语言的纯度就越高，语音就比较纯净，识别难度大大降低，准确率也会大大提升。这是近场语音识别，与之相对的是远场语音识别，音源拾取距离一般会比较远，距离一般在3-5米左右，当然也会有很近距离的情况，现在比较常见的就是智能音箱，比如亚马逊的Echo，谷歌的Google Home，天猫的天猫精灵、百度的小度音箱等，远场语音识别的难点之一在于信噪比低的问题，需要通过硬件和软件算法等技术来解决噪音的问题，下面主要介绍远场语音识别的一些关键概念，以下均拿智能音箱的使用场景来说明一些问题。

二、关键概念

1、语音激活检测

语音激活检测，简称VAC，是一种用于检查人声的技术，解决识别到声音中人的语音的问题，因为有声音但不一定是人的语音。

智能音箱在实际使用场景中，一般是放在一个空间内，然后人对他喊话，它进行识别和回应，“喊话》回应”的过程是一个最小的交互过程。但空间内的声音不单只有你说话的声音，也有其他的声音，比如水龙头的流水声、空调的声音、开水沸腾的声音等等，音箱出于对用户隐私保护和设备功耗的问题，不能实时都让设备处在一个运行的状态（自己猜想、未求证），需要对这些这些声音进行识别，只在有人声的时候才运行对应需要的系统进行处理操作，于是就需要先做“语音激活检测”。

2、语音唤醒

语音唤醒，简称VT，上面通过“语音激活检测”技术检测到人的语音后，那是不是所有人的声音都需要进行回应处理呢？答案是NO，因为现实环境中存在鸡尾酒效应。在吵杂的环境中，我们一般只会获取到对你说的话，其他人的对话的声音我们会自动屏蔽掉，除非你在偷听旁边的对话，但其实偷听的时候你也会屏蔽掉其他的一些声音，但如果这时候有人喊了你名字，你也会马上反应过来，并进行对话回应，这是一个锚定的过程，把你我锚定在你我对话的过程中来，那么后面的对话就都是对你讲的了，那你就会去听他见的每句话。

回到智能音箱的场景，周围环境的声音中，有很多人的语音，家里的成员在对话，小孩子在吵闹，电视里的演员在说话，这么多的声音，那么那一句话是我应该去听且进行回应的呢？那么就需要先做“语音唤醒”了，相当于喊人的名字，你需要喊一下智能音箱的名字，让它知道你接下来是在和它说话，然后它才对你说的话做出反应，那么你喊名字后它响应的过程就是“语音唤醒”的过程。

所以每个智能音箱都有一个名字，这有产品拟人化的目的，但更根本的原因是技术上需要有个名字对设备进行“语音唤醒”的过程。

语音唤醒的过程，如果你喊它，它不回应，那是漏报，你不喊它，它回应了，那叫误报，漏报和误报的情况和它名字的长度有关系，名字长了，误报的几率降低了，但漏报的几率提高了，因为名字长了，可以识别的信息就多了，识别到的信息就比较准，但必须要喊全了名字，如果名字短了，误报的情况多了，漏报的情况少了，所以名字不能太长，也不能太短，一般在3-6个音节之间，所以现在市面上的智能音箱唤醒词都会是4个音节，比如小度小度，而不能是小度，叮咚的唤醒词是叮咚叮咚，而不能是叮咚，但目前也有团队在这个方面已经有了新的突破，已经可以做到2个音节的唤醒词，那就是Rokid的若琪，这是一个值得尊敬的产品。

今天时间有限，先写这么多，后续还有“麦克风阵列”、“全双工”、“纠错”等概念，后续更新。

网友评论

新学霸社群

本文标题：第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸

本文链接：https://www.haomeiwen.com/subject/kqnjrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸

一、语音识别简介

二、关键概念

1、语音激活检测

2、语音唤醒

相关文章