美文网首页
MP3压缩算法的原理竟然是对听觉的糊弄

MP3压缩算法的原理竟然是对听觉的糊弄

作者: 莫颜云月 | 来源:发表于2022-06-27 09:52 被阅读0次

    看到少楠的PRODUCT THINKING的周刊推送,提到这么一段话:

    MP3 压缩算法的诞生,便是一次数字时代对人类器官的愚弄。整个算法不是围绕着数学来改进,而是围绕如何骗过人类的听觉器官来优化

    于是这个算法产生了很强好奇心,百度了好久终于找到了一些资料,对其原理有了一知半解的了解,特此记录一下。

    基础原理

    人体听觉模型中有一个遮蔽效应的特效。
    耳蜗的作用就像一个频谱分析仪,把声波转换成不同频率的讯号,每一个特定位置的绒毛细胞会受特定频率的刺激,但是当基底膜传导波动时其邻近周围的绒毛细胞也会受到刺激。这也就是说如果有一个频率的音量很大,在它附近同时有一个比较弱的频率的话,比较弱的频率的声音就会被比较强的声音给遮蔽掉,我们人耳没有办法分辨出有另一个比较弱的频率的声音存在。

    image.png

    对于人类的听觉来说,对声音的感知特性并不是以线形频率为尺度来变化的(人的听觉还没那么好),而是可以用被称为临界频带的一系列有限的频段来表达。简单的说,把整个频带划分成几段,在这每个频段里,人耳的听觉感知是相同的,即心理声学特性都是一样的。
    那么根据这个原理,可以把mp3压缩的工作简单分成两部:

    • 第一步:将原始的音频数据根据一定的原理,分成好几个次级临界频段;

    • 第二步:根据心理声学模型分析频谱,找出遮蔽效应的曲线。然后根据这个曲线,对各个次频段分别进行量化,最终让音频的压缩在遮蔽效应的曲线以下。

    这样一来,mp3的压缩就大功告成了。而且非常神奇的是,在数字世界mp3确实被压缩了,但是对于人体知觉却属于无失真的压缩。

    脑补是一种本能

    除了人耳的生理结构特性以外,大脑的作用也占了一个很重要的角色。
    声音中音高是由基音决定,而音色是由泛音决定,而人类的大脑会自动补上基音,即使这个基音并不存在。譬如说电话的频宽只有 300~3200Hz,但是当我们听一个基音在 120Hz 的男性讲电话的时候,我们还是可以听出他的正确的音高,不会把男生听成女生。

    大脑是如何运用复杂的计算去重建这个不存在的基音,我们目前尚无法得知。

    p.s.再附加一则视觉小彩蛋,你能看出这张图片有什么蹊跷吗?


    image.png

    (答案请拉到底)

    ……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………
    这是张黑白照片,只有那些网格线是有颜色的,你的大脑欺骗了你的视觉~incredible!人体还是有太多未知的神奇彩蛋等待挖掘了~~

    相关文章

      网友评论

          本文标题:MP3压缩算法的原理竟然是对听觉的糊弄

          本文链接:https://www.haomeiwen.com/subject/yfpnvrtx.html