数字音频以及音频编码
目录
- 1 导言
- 2 采样
- 3 量化
- 4 编码
- 5 压缩
- 参考
1 导言
上一篇讲了声音的物理性质,了解了与声音有关的术语。这篇就讲讲如何将声音模拟成数字信号,然后再还原出来。
2 采样
采样是在时间轴上对信号进行数字化的过程,根据奈奎斯特定理(采样定理)使用比声音最高频率的两倍以上的频率对声音进行采样(AD转换)。人耳能够识别声音的最高频率为20kHz,它的两倍多一点就是44.1kHz,所以人们通常使用44.1kHz来作为声音的采样频率,它1秒可采样44100次。
3 量化
量化是指在幅度轴上对信号进行数字化,用来表示每一个采样的数据。如果用 16bit 的二进制信号来表示声音的一个采样它就有 65536 个可能取值,最终模拟的音频信号在幅度上分为 65536 层。
4 编码
假设我们现在记录了一段长达一秒的声音,将其分成了 44100 份放在了二维坐标的横坐标上,而纵坐标放的就是对采样数据的量化,分为 65536 层。编码就可以理解为将声音信号按照类似上的方法数字化的过程,通常有顺序存储和压缩存储。
编码涉及很多格式,主要有以下几个概念。
- 脉冲编码调制数据(PCM 音频的裸数据)
- 量化格式(位深度):纵坐标
- 采样率:横坐标
- 声道数:左右耳听到的声音
- 比特率:一秒时间内的比特数目
以 CD 音质为例
- 量化格式:16bit = 2B
- 采样率:44100Hz = 44.1kHz
- 声道数:2
- 比特率:16 * 44100 * 2 = 1411.200 kbps
使用比特率可以计算出一分钟 CD 音质的音频大小
1411.2 / 8 / 1024 * 60 = 10.336 Mb
我们可以通过音乐播放器查看音频文件的相关信息。
5 压缩
通过编码我们成功的将声音转化成了数字信号,但是每一分钟就需要大约 10M 的存储空间的音频显然不合适在网络上进行广泛的传播的,这时我们可以对原始数据进行压缩处理,原理是压缩掉冗余信号(不被人耳感知),冗余信号也分为频域冗余和时域冗余。
压缩的指标:压缩比(通常比 1 小)
压缩算法分为以下两类
- 无损压缩:解压后可以完全复原
- 有损压缩:解压后不可复原,压缩比越小丢失的信息越多。
常见的音频压缩算法
- PCM:
- WAV:原始数据,音质好
- AAC:低码率下表现优异,多用于视频中音轨编码。
- MP3:体积小,中高码率听感上接近 WAV ,兼容性高。
- Ogg:免费,算法好,相比MP3低码率也能便显出更好的音质,缺点兼容性不高,多用于语音聊天。
网友评论