音频基础知识03

作者: yunie | 来源:发表于2019-05-19 12:12 被阅读0次

音频基础知识02
音频基础知识03
Android音频知识收集
IOS 音频开发
Android音频技术开发之基础知识
音频采集（AudioRecorder）
多媒体音频播放简单介绍
iOS 音频学习基本术语和概念
音频 (一) : 音频基础知识
音频 (一) : 音频基础知识

1. 声音的存储

通过声音采集器(麦克风)绘制出的实时波形图的电流数据，我们需要对数据进行采样（其实就是按照指定频率做抽样数据）整理，如果不做采样处理，电流实时生成的数据量大的你无法计算（按照电子的传播速度299792.458km/s）

采样的几个特征介绍：

特征	介绍	*
采样率	每秒对信号的采样次数
采样大小	采样大小也叫采样位深，音频的位深度决定动态范围。我们常见的16Bit（16比特），可以记录大概96分贝的动态范围。那么，您可以大概知道，每一个比特大约可以记录6分贝的声音。同理，20Bit可记录的动态范围大概就是120dB；24Bit就大概是144dB。	如果对一个信号每秒进行8次采样，采样点分别对应的能量值分别为a1~a8，如果选择2bit的采样大小，则只能保存8个点中的四个点（2的2次方）。如果采样3bit的采样大小，则8个点都可以保存（2的3次方），采样的数据不一定全部保留下来，可以保留下来的数据个数就是采样大小。我们要把采样记录下来时，存储8位，就意味着我们只能将振膜位置划分成256份；如果是16位，则可以有65536份……当然，也还可以是个浮点数，不过其本质仍旧是按位决定信息量的。采样深度即每个采样占用的位数，深度越大，采样精度越高，还原效果越好。一般常用音频采取16位（2字节）纪录一个采样。

采样率为44.1KHz,采用位宽为16bit，双声道，在1分钟中采集数据的大小为多少？
引入新的概念，数据码率，每秒数据的占位码数（机器码）
数据码率 = 44.1KHz * 16bit * 2 = 1411.2Kbps
转化成常用的字节
每秒数据量1411.2Kbps / 8 = 176KB
每分钟数据大小为176KB / 1024 * 60 ≈ 10.31M
即每分钟的数据大小 = 采样率 * 采样位深 * 通道数 * 60s
单位是bit位，折算成多少兆的时候需要除8再除1024

所以此时，假设是44.1kHz 16bit的双声道采样，意味着每秒有244.1k2byte=176.4kbyte/s=1411.2kbps的数据，以两个字节为一个单元，左右声道交替纪录的整数数组。其它频率、声道、深度依此类推。当然，这仅仅是PCM格式的纪录方法。别的编码形式各有不同，如mp3就记录的是采样经过离散傅立叶变换后的频域信号，并且丢掉了一些高频部分，以此达到压缩的目的；ADPCM则是由于声音信号一般比较平滑，通过纪录一个标准采样（关键采样）后跟随若干个变化量大形式存储……但是最终都是转换为类似PCM中的采样数据交给输出端的。

这里引入了PCM采样数据的概念

PCM

PCM(Pulse-code-modulation)是模拟信号以固定的采样频率转换成数字信号后的表现形式.

PCM占位示例-图片来源csdn

PCM数据流

单声道：

每个整数占据2个字节(16-bit)，9个采样也就是18字节的数据。每个采样的整数大小最小为 -32768，最大为 32768 。根据采样数据的位置和值画一个图的话，就会得到像播放器上那样的波浪形图。
如果我们将这些数据送入声卡，我们就可以听到声音。当然我们需要告诉声卡这些数据的采样率。若我们告知声卡的采样率大于数据本身的采样率，那么这些数据的播放速度会高于其原始的速度。就是快放的功能。

双声道

每一个frame是一个16-bit的采样点。左右声道的数据交叉存放。

音量控制

现在让我们来看一下一些真实的波形图。最简单的就是正弦波了。

我们将波形的振幅扩大五倍，图形如下：

所以如果要增加PCM数据的音量，只需要将每一个采样的数据乘以一个系数就行了。音量控制就是这么简单，但是要注意两点：
若采样点的数据乘以扩大系数之后的值小于 -32768 或大于 32768 （2^16/2），则此处采样的数值只能取 -32768 或 32768

我们将采样点的数据乘以2并不代表将声音的音量扩大了两倍，事实上也的确如此。声音音量的增益系数与音量的关系如图：

修改采样频率

根据定义，Sample Rate表示每秒钟的采样个数，所以若是要改变音频的采样频率，我们只需要对采样点做适当的丢弃或者复制就可以。
比如：原始音频为opus编码，单声道，采样率为48kHz，采样点大小为16-bit。如何得到编码为speex，采样率为16kHz，采样大小为16-bit的音频？
我们需要以下几步：