美文网首页
一段声音的旅程(四)信号处理五大不安因素-空间

一段声音的旅程(四)信号处理五大不安因素-空间

作者: 秋观天象 | 来源:发表于2018-05-09 20:56 被阅读0次

作者: 秋半仙,哼哼

童鞋们好,又到了秋半仙分享会的时间了!

上次我们扒光了信号处理五大刺头之一——硬件。什么?没看够?哦,那出门左转走到底那个房间就是一段声音的旅程(三)信号处理五大不安因素-硬件

留下来的同学有福了哈,我们今天继续开扒,哦不,是开八五大刺头之二——空间!

图片源自网络

首先我们要了解的是,不同的使用场景,空间是不一样的,而且空间的变化也是不一样的。每一种空间和变化,都会给信号处理带来一些负担。

这里我们需要回顾一个物理现象——声音(声波)的反射及混响。简单的描述,就是,“发出的声音”在一个空间中,会不断反射(不止一次),然后还会和其他的声音混和在一起,再被麦克风采集回来。

图片源自网络

如果我们查看麦克风采集上来的声音,会发现很多次“发出的声音”的“回声”。人耳要区分清楚原声和回声,两组声音之间需要有150ms左右的间隔。小于这个间隔,人耳虽然无法区分出来,但机器可膈应坏了,可能直接撂挑子不干了,从而直接影响信号处理的结果。

——“师傅,这和我们语音产品有什么关系吖?”

——“哎哟八戒,不要着急嘛,本半仙正要解释呢~”

图片源自网络

我们拿音箱这个语音产品的场景做为例子吧。音箱的主要场景是“家庭”,其主功能是播放音乐。假设这个时候音箱在播摇篮曲,而你娃正在尖叫撒泼就是不睡。如果你在此时唤醒音箱“你好二傻——”,那麦克风采集到的音频就应该包含:

1.“你好二傻”的音频;

2. 摇篮曲的音频;

3. 摇篮曲的音频的回声*N;

4. 噪音——娃的尖叫撒泼声(噪音不是本大类重点,后面讲噪音的时候再单独说)。

所有这些声音混和在一起,二傻的内心OS就是:喵了个咪的整老子呢,老子不玩了,你们自己捋清楚了再说!然后二傻无可避免地选择了——

狗带……

图片源自网络

为了解决这个“回声”的问题,我们为“信号处理”引入了一个新的“输入”,这个输入就是“发出的声音” 。对应到上面的例子,就是扬声器中播放出来的摇篮曲。仔细看下图我们发现有一个“回路信号”。这个“回路信号”,就是设备所“发出的声音”,目的是告诉“信号处理”,“哥们儿,这个是二傻我自己说的,麻烦你处理掉,别搞混了哈”。我们把这个过程,叫做回声消除(或“AEC”)。这个功能是语音产品的基础功能,也是一个经常用到的知识点,要记在小本本里哦~

针对这个知识点,本半仙顺道给各位童鞋再开个小灶。因为这一段可能会比较“技术”,不好理解便不要强求,跳过即可。

AEC有一个输入依赖,就是这一路(或多路)“回路信号”,也就是“发出的声音”。如果你是做音箱,就特别要注意,这路信号的目的是给予信号处理做为消除参考的,那么它就需要具备其真实性

怎么解释呢?有的音箱,在设计上,会有一个硬件EQ模块。“EQ”从本质上来说,就是给音频加上音效,说白了就相当于图像处理中滤镜的作用。所以,可以理解为,EQ处理前后的音频是不一样的。有些做音箱的企业,他们可能早年就是做音箱的,低音炮吖、均衡器吖,都是在已有的硬件组合里,然后再在这个基础之上,增加了一个“智能模组”,模组之上跑一个linux或者android,再跑语音和音乐。所以,如果对于“智能模组”而言,回路信号,就是智能模组输出给音箱已有的硬件的信号数据。但是,这个信号会经过原有的硬件进行EQ处理,再播放出来,这个时候,回路信号就和真正播放出来的音频信号不一致了,便失去了“真实性”,那么AEC效果可能就会大打折扣。

图片源自网络

另外,所有的信号传输都是需要时间的,这是第二个需要注意的关键点。对于“信号处理”这个模块来说,得到“麦克风”的数据和“回路信号”的数据之间会有一个时间差,做技术的童鞋务必要注意这个时间差。一方面技术上对于这个时间差是有一定容忍度的(时间差太大,那单位时间的信号数据的处理时间就会被拉长,就会影响到上面产品的用户体验)。另一方面这个时间需要恒定在一个数值,不能波动过大,可称其为“同步”,否则也会影响AEC的最终效果。由于真正在做“信号处理”的童鞋和提供“回路信号”的童鞋一般都不是同一拨人,相互之间并不知道要注意哪些。而且这个点在产品的表现层和其他的问题极其类似,所以非常难被发现。建议在这样的细节上,童鞋们要多和算法童鞋多沟通交流。

还有一个要注意的,就是扬声器的位置。等我们说到腔体时本半仙会详细说说设备内部的位置关系,而在空间这个类别里我们主要要说的是设备自身可能会借助外部扬声器进行发声的情况。比如,在进行智能后视镜的硬件设计时,扬声器是放在在后视镜里的。而语音的AEC会针对这个场景定位进行优化和适配。但是真实用户使用的时候,还有可能会把后视镜连到车机里,使用车里的自带音响设备进行播放,这就一下子把声音的空间给彻底改变了。而且不同的车型,车内空间是不一样的,声音的传播模型都不一样。这样一来,车内的环绕立体声,可苦了语音宝宝。用户可能因此投诉甚至退货,搞得各种鸡飞狗跳。无独有偶,智能机顶盒(OTT盒子)也可能存在类似的问题。盒子自己是不发声的,是由电视来发声的。盒子和电视扬声器的摆放位置不同,可能对于语音的效果都会有强弱不等的影响。

图片源自网络

继续聊“空间”。其实AEC也不是完美的,如果混响非常严重,AEC也是无可奈何的。因此,语音对于“空间”需要做很多的适配工作。

对于空间的变化,不同的行业,难易度不同。

1. 智能汽车。前装车中的“空间”,指的是“车内空间”。比较烦的是,由于车型不同,空间不同,优化适配工作需要逐一进行。而这其中的难点又在于,如果汽车空间存在变化,比如车窗打开了,天窗打开了,空间就发生变化了。这个时候,声音的混响效果就会发生变化。若此时,还在播音乐,还打开了空调,还在闹市区(车多人多),还有个四五十的车速等等,是不是就更头疼了?

图片源自网络

2. 智能电视(这里指电视上放的麦克风阵列,并不是电视遥控器的方案)。智能电视一般都在家,所处的空间一般偏大。因为家里会有比较多的家装,这些都会吸收声波,所以混响的影响相对会好一点。而且电视的方案,一般是约束在电视正前方120度角的范围内,基本目标是覆盖沙发的范围,所以”定向抑制“也能有效减少一些影响。

3. 智能音箱、智能机顶盒(OTT盒子)。这些设备一般也是在家,但是它们可能出现在家里的任何一个角落。在一个空间的不同位置里,声音传播和混响的效果是不一样的,所以也可能会发生不同位置,效果不一样的结果。

秋半仙温馨提示:

经常会有做产品的童鞋,拿着自己的产品去别的公司演示。演示的房间高概率是一个会议室,而这间会议室混响的严重程度,和空间的材质有很大关系。如果会议室好几面都是玻璃,而且还是木的或瓷的地板,而且会议室里还空荡荡的,那就God bless you了。这种情况请尽量避免演示远距离的功能,因为演示效果可能会远差于你在自己公司预演时的效果。当然,事情不是一定如此的,只是有这个概率。万一搞砸了拿不到投资要被扣奖金咋办?哈哈,如果搞砸了,也千万不要慌张,把上面的内容用自己的话娓娓道来,然后话题岔到别的功能上就行了。(本半仙真是为各位童鞋操碎了心啊~)

图片源自网络

相关文章

网友评论

      本文标题:一段声音的旅程(四)信号处理五大不安因素-空间

      本文链接:https://www.haomeiwen.com/subject/gwgorftx.html