音频压缩
音频压缩:音频编码,不进行压缩,每秒产生的数据大小是1M多,数据太大了
音频压缩2个极端
- 数据压缩越来越小
- 压缩的速度越快越好
- 很难达到压缩的最小,速度最快,一般是寻求一个平衡点,适合传输的同时,速度还快
音频压缩关注2个点
- 消除冗余信息,人的听觉是20赫兹~2W赫兹,对于20赫兹以下,2W赫兹以上的信息,我们是不需要的,属于冗余信息,这种操作属于
有损压缩
- 无损压缩,剔除冗余信息,剩下的信息,是人敏感信息,对于剩下的数据,我们在进行无损压缩, 数据量变的更小
有损压缩
:当我们把数据进行压缩之后,无法还原回跟原来一模一样的信息了
无损压缩
:是对文件本身的压缩,和其它数据文件的压缩一样,是对文件的数据存储方式进行优化,采用某种算法表示重复的数据信息,文件可以完全还原,不会影响文件内容,对于数码图像而言,也就不会使图像细节有任何损失。
感谢分享
音频的冗余信息
音频压缩技术是在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩
压缩的主要方法:
是取出采集到的音频冗余信息。所谓冗余信息包括人耳听觉范围外的音频信号以及呗。
信号的遮蔽可以分为频域遮蔽
和时域遮蔽
。
频域遮蔽
图片1
现实生活中,声音是一种复合声音(各种声音参杂在一起),在与人对话的时候,听到对方说的,我们听到的,是对方说话的声音和好多环境的声音,比如关冰箱、水壶响,其实是参杂在一起,但是我们为什么能听见对方说的话,而听不见这些声音呢?是因为对方说的声音,覆盖掉了例如水壶响啊、关冰箱声音等,遮蔽掉了,如何遮蔽的呢?2种技术,一种是频域遮蔽,另一种是时域遮蔽
。
频域遮蔽
和时域遮蔽
这个太深奥,在这里不做解释了,设计到的内容太深了,本人掌握的一点,不敢误导人,所以就不写了。
感谢分享
时域和频域转换 傅立叶变换
转换之后,我们只关心我们需要的波形,不要的就要替换掉,那些数据应该保留,那些数据应该扔掉呢?
图片1就给我们做了解释,横轴是它的频率范围,到0.02单位是khz,0.02也就是20hz,20hz一下的,人也不感知,纵轴是声音的强度,有一条静音门槛,这条曲线之下的声音都是被屏蔽掉的,人都是听不到的, 曲线之上的还有一个遮蔽效应,就是在不同的频域上,它会有一个范围,在这个范围之内的声音,也是被屏蔽掉的,2个女生说话,在相同频域范围内,声音高的 会把声音低的这个人的声音屏蔽掉,这也是为啥2个女生吵架的时候,声音高的很容易让人听见,男生和女生说话,虽然女生的声音高,但是男生的声音不一定被屏蔽掉,男生的声音在横轴0.25khz范围上,纵轴在30dB上,没在遮蔽源范围内,还是可以听见男生说话的。
- 同频率的情况下,谁的嗓门高,谁的容易听见,声音强度大,就容易听的见
- 不同频率的情况下,差的比较多,很小的一个声强,都能被听见
以上就是频域遮蔽
时域遮蔽
2.png时域遮蔽:随着时间的推移,它是如何产生遮蔽效应的。横轴是时间,纵轴是声音强度,图2所示,0-200,同时有很多声音进来,声强的会压住声弱的。声强之前的声音也会被屏蔽掉。在50毫秒内,越靠近这个人说话,越会被屏蔽掉。对于后面的屏蔽更长了,达到了200毫秒,你超过它,你就把前面的声音给屏蔽掉了,就看图2后屏蔽这。
根据时域和频域遮蔽效应哪些被屏蔽掉
- 低于20hz或者高于2Whz的被屏蔽掉
- 声音强度很小的,也被屏蔽掉了
- 同时说话,声音强度大的压制声音强度小的
- 同一频率,声音强度大的压制声音强度小的
- 不同频率,他们之家影响很小
网友评论