美文网首页新学霸社群
第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸

第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸

作者: 林灿业 | 来源:发表于2019-07-28 10:39 被阅读1次

    一、语音识别简介

            语音识别(ASR):计算机把声音转化成文本的过程,相当于人的耳朵,让机器可以听到语音。

            语音识别从音源拾取距离上,可分为近场语音识别和远场语音识别。近场语音识别比较常见的应用场景就是语音输入法,一只手按住,对着去讲想输入的话,音源距离近,信噪比高(信噪比简称SNC,信号与噪音的比例,值越大,表示信号越好),获取到的声音为纯语言的纯度就越高,语音就比较纯净,识别难度大大降低,准确率也会大大提升。这是近场语音识别,与之相对的是远场语音识别,音源拾取距离一般会比较远,距离一般在3-5米左右,当然也会有很近距离的情况,现在比较常见的就是智能音箱,比如亚马逊的Echo,谷歌的Google Home,天猫的天猫精灵、百度的小度音箱等,远场语音识别的难点之一在于信噪比低的问题,需要通过硬件和软件算法等技术来解决噪音的问题,下面主要介绍远场语音识别的一些关键概念,以下均拿智能音箱的使用场景来说明一些问题。

    二、关键概念

    1、语音激活检测

            语音激活检测,简称VAC,是一种用于检查人声的技术,解决识别到声音中人的语音的问题,因为有声音但不一定是人的语音。

            智能音箱在实际使用场景中,一般是放在一个空间内,然后人对他喊话,它进行识别和回应,“喊话 》回应”的过程是一个最小的交互过程。但空间内的声音不单只有你说话的声音,也有其他的声音,比如水龙头的流水声、空调的声音、开水沸腾的声音等等,音箱出于对用户隐私保护和设备功耗的问题,不能实时都让设备处在一个运行的状态(自己猜想、未求证),需要对这些这些声音进行识别,只在有人声的时候才运行对应需要的系统进行处理操作,于是就需要先做“语音激活检测”。

    2、语音唤醒

            语音唤醒,简称VT,上面通过“语音激活检测”技术检测到人的语音后,那是不是所有人的声音都需要进行回应处理呢?答案是NO,因为现实环境中存在鸡尾酒效应。在吵杂的环境中,我们一般只会获取到对你说的话,其他人的对话的声音我们会自动屏蔽掉,除非你在偷听旁边的对话,但其实偷听的时候你也会屏蔽掉其他的一些声音,但如果这时候有人喊了你名字,你也会马上反应过来,并进行对话回应,这是一个锚定的过程,把你我锚定在你我对话的过程中来,那么后面的对话就都是对你讲的了,那你就会去听他见的每句话。

            回到智能音箱的场景,周围环境的声音中,有很多人的语音,家里的成员在对话,小孩子在吵闹,电视里的演员在说话,这么多的声音,那么那一句话是我应该去听且进行回应的呢?那么就需要先做“语音唤醒”了,相当于喊人的名字,你需要喊一下智能音箱的名字,让它知道你接下来是在和它说话,然后它才对你说的话做出反应,那么你喊名字后它响应的过程就是“语音唤醒”的过程。

            所以每个智能音箱都有一个名字,这有产品拟人化的目的,但更根本的原因是技术上需要有个名字对设备进行“语音唤醒”的过程。

            语音唤醒的过程,如果你喊它,它不回应,那是漏报,你不喊它,它回应了,那叫误报,漏报和误报的情况和它名字的长度有关系,名字长了,误报的几率降低了,但漏报的几率提高了,因为名字长了,可以识别的信息就多了,识别到的信息就比较准,但必须要喊全了名字,如果名字短了,误报的情况多了,漏报的情况少了,所以名字不能太长,也不能太短,一般在3-6个音节之间,所以现在市面上的智能音箱唤醒词都会是4个音节,比如小度小度,而不能是小度,叮咚的唤醒词是叮咚叮咚,而不能是叮咚,但目前也有团队在这个方面已经有了新的突破,已经可以做到2个音节的唤醒词,那就是Rokid的若琪,这是一个值得尊敬的产品。

            今天时间有限,先写这么多,后续还有“麦克风阵列”、“全双工”、“纠错”等概念,后续更新。

    相关文章

      网友评论

        本文标题:第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸

        本文链接:https://www.haomeiwen.com/subject/kqnjrctx.html