音视频基础知识

作者: SmileToLin | 来源:发表于2018-08-27 14:50 被阅读0次

今天给大家谈谈音频文件的采样率和bit率以及码率

如果大家经常在电脑上听歌或者录音，那么你一定会经常看到如下的一些描述

比如 44.1khz 16bit 128kbps

那么其中的 44.1khz 是指采样率

16bit是指比特率或者bit率

128kbps这个是指的编码的码率

那么这3个单位分别代表什么呢

恩大家应该知道电脑其实是不懂什么叫艺术的它其实就是个傻瓜蛋它只懂什么呢？它只懂0101010101101

对也就是数字。因为我们现在的用电脑来录音或者是听音乐都叫做数码录音

那么电脑是怎么用数字来记录我们千变万化的声音的呢？

小A：这还不简单，我们用数字记录下每秒的波形信号不就行了

老M：但是问题来了，你有听过谁唱歌是1秒发出一个声音的么。。。那可是比结巴还难听啊。。

小A：那我们就多记一点 1秒钟记它1000次这总该够了吧

老M：恩这个方向是没错的不过耳朵远比我们的眼睛更难欺骗，我们的眼睛可能只需要1秒有30副画面就会认为是一个连续的画面了而耳朵需要更高需要多高呢我们目前比较流行的CD格式就是44.1kHZ 这里就是表示 1秒钟记录 44.1k次也就44100次声音信号基本达到这样的水平大部分人就觉得没什么区别了，但是其实和真实的声音还是有区别的哦

小A：说到这里，还有一个问题啊，我们光考虑的记录的次数，那每次采样的声音的内容是怎么记录的呢。

老M：不错不错,都学会主动思维了，看来我没白教你啊，呵呵有空多去MAXZONE逛逛还会长进更快的

实际上呢我们是用记录每个采样点的波形振幅来记录声音的。举个例子，我们可能会记录

1号的采样点的是3.153115

2号采样点的是41.133

3号采样点的是7.9751464123123412435464098271908

4号采样点。。。。。

等等！不对啊！振幅可不是数羊要么1只要么2只，它可是像时间一样可以无限精确的，那我的数据量可能会无穷无尽了

小A：那我知道了咱们和对付时间一样给他也定个范围比如每个采样弄个固定的位数的数字来表示就可以了

老M：非常正确，奖励你一根棒棒糖吃哦事实上我们就是这么做的规定一定的数字范围来记录声音超过这个范围的我们就对他4舍5入不足位数的我们就给他补全这样我们只要告诉傻瓜计算机每多少位代表一个声音就行了

我们常见的16bit 24bit代表多少位呢？

其实他们代表的是2进制数字的位数

也就是说16bit 也就是用 0000000000000000 （16位）到1111111111111111（16位）来代表我们的声音

那么一共有多少个呢？答案是65536 但是我们大家都知道振动是有正有负的所以呢还要分一半给我们的负值也就是32768

小A：那么当我的声音振幅最大超过了32768呢？比如 32769 或者42768 我们数字音量怎么记录他呢？

老M：当我使用16bit的时候就无法记录他了，（平时我们会提到这种现象叫做过载，过顶失真，超限）或者因此也就有24bit 或者32bit的产生用来记录更大的音量或者更细节的音量

小A：所噶，原来是这么回事儿，我是说我上次录的东西音量开大了点就全部成方的了哈哈哈

老M：对的，也就是说大家平时录音的时候注意一定不能超过录音最大承受的音量不然这是无法挽回的。

小A：那还有一个东西哪儿码率 128kbps代表什么？

老M：码率其实就是每秒花费了多少数据来记录声音信号

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常见的CD就是采用的PCM音频流。也就是说cd的码率就是1411.2kbps

（注：音频文件大小(单位Byte)=(量化单位数×采样频率×声道数×持续时间)/8）

小A：但是我们常见的不是128kbps么？怎么差这么多？

老M：呵呵你说的128kbps 一般来说可能是用的mp3格式吧 mp3格式是一种有损的压缩格式，他是通过去除一些人耳不太敏感的信号来降低码率的 1411.2kbps的信号不适合在网络上传播，因此才有了mp3 以及后来的种种格式比如wma ogg 等等

附注：

（一）关于位深度。位深度也叫采样位深，音频的位深度决定动态范围。

我们常见的16Bit（16比特），可以记录大概96分贝的动态范围。那么，您可以大概知道，每一个比特大约可以记录6分贝的声音。同理，20Bit可记录的动态范围大概就是120dB；24Bit就大概是144dB。

假如，我们定义0dB为峰值，那么声音振幅以向下延伸计算，那么，CD音频可的动态范围就是“-96dB～0dB。”，依次类推，24Bit的HD-Audio高清音频的的动态范围就是“-144dB~0dB。”。由此可见，位深度较高时，有更大的动态范围可利用，可以记录更低电平的细节。

（二）关于采样频率。

采样频率最直观的影响是什么？是影响声音的频率范围表现力，采样频率越高，能表现的频率范围就越大。44.1KHz采样频率，可以表现的频率范围是0Hz-22050Hz；48KHz采样频率可以表现的频率范围就是0Hz-24000Hz；96KHz采样频率可以表现的频率范围是0Hz-48000Hz。人耳能听到的平均频率范围，大概是20Hz-20000Hz。

综合以上两条，那么，假如您看到一个参数：

16Bit 44.1KHz，代表这个数字音频能够表现“96dB的动态范围”和“0赫兹-22050赫兹”的频率范围；

24Bit 48KHz，代表这个数字音频能够表现“144dB的动态范围”和“0赫兹-24000赫兹”的频率范围。

（三）音频位速，也叫码率，或者比特率。

位速是指在一个数据流中每秒钟能通过的信息量，也可以理解为：每秒钟用多少比特的数据量去表示。

原则上，音频位速越高质量越好。

不过，如果是有损压缩音频，不同的压缩算法，即使位速相同，也会导致音质结果完全不同。

典型代表：96kbps的WMA音频格式的音质明显要比96kbps的MP3音质好。为什么会这样呢？因为不同的压缩算法，对数据的利用率不同而造成的差异。再举例，假如MP3压缩至48kbps以下，已经惨不忍睹，而如果是AAC音频格式，同样是48kbps的位速下，音质明显比MP3好。

而对于无损压缩音频，即使位速完全不同，但是最后的音质却相同。比如把同一个WAV文件分别压缩成FLAC格式和APE格式，得到的文件，位速是不太相同的，但是音质却是一样的。即使是同一种格式，压缩级别不同，位速也完全不同，可是最后的结果，音质还是一样（但编码解码时，CPU占用率不同，编码时间也不同）。

原帖：http://www.maxzone.cn/bbs/thread-1498-1-1.html

=============无敌进阶割线===============

采样率

采样率实际上是指当将声音储存至计算机中，必须经过一个录音转换的过程，转换些什么呢？就是把声音这种模拟信号转成计算机可以辨识的数字信号，在转换过程中将声波的波形以微分方式切开成许多单位，再把每个切开的声波以一个数值来代表该单位的一个量，以此方式完成采样的工作，而在单位时间内切开的数量便是所谓的采样频率，说明白些，就是模拟转数字时每秒对声波采样的数量，像是CD音乐的标准采样频率为44.1KHz，这也是目前声卡与计算机作业间最常用的采样频率。

另外，在单位时间内采样的数量越多就会越接近原始的模拟信号，在将数字信号还原成模拟信号时也就越能接近真实的原始声音；相对的越高的采样率，资料的大小就越大，反之则越小，当然也就越不真实了。数字数据量的大小与声道数、采样率、音质分辨率有着密不可分的关系。

前面提到CD音乐的采样率为44.1KHz，而在计算机上的DVD音效则为48KHz (经声卡转换) ，一般的电台FM广播为32KHz，其它的音效则因不同的应用有不同的采样率，像是以Net Meeting之类的应用就不要使用高的采样率，否则在传递这些声音数据时会是一件十分痛苦的事。

当然，目前比较盛行的蓝光的采样率就相当的高，达到了192kHz。而目前的声卡，绝大多数都可以支持44.1kHz、48kHz、96kHz，高端产品可支持192kHz甚至更高。

24Bit则可以提供高达144dB的动态范围

量化精度

声波在转为数字的过程中不是只有采样率会影响原始声音的完整性，另一个亦具有举足轻重的参数——量化精度，也是相当的重要。一般来说，音质分辨率就是大家常说的bit数。目前，绝大多数的声卡都已经可以支持24bit的量化精度。

那么，什么是量化精度呢？前面曾说明采样频率，它是针对每秒钟所采样的数量，而量化精度则是对于声波的“振幅”进行切割，形成类似阶梯的度量单位。所以，如果说采样频率是对声波水平进行的X轴切割，那么量化精度则是对Y轴的切割，切割的数量是以最大振幅切成2的n次方计算，n就是bit数。

举个例子，如果是8bit，那么在振幅方面的采样就有256阶，若是16bit，则振幅的计量单位便会成为65536阶，越多的阶数就越能精确描述每个采样的振幅高度。如此，也就越接近原始声波的“能量”，在还原的过程序也就越接近原始的声音了。

另外，bit的数目还决定了声波振幅的范围（即动态范围，最大音量与最小音量的差距）。如果这个位数越大，则能够表示的数值越大，描述波形更精确。每一个Bit的数据可以记录约等于6dB动态的信号。一般来说，16Bit可以提供最大96dB的动态范围（加高频颤动后只有92dB）。每增加一个Bit的量化精度，这个值就增加6dB。因此，我们可以推断出20Bit可以达到120dB的动态范围，而24Bit则可以提供高达144dB的动态范围。

那么，动态范围大了，会有什么好处呢？动态范围是指系统的输出噪音功率和最大不失真音量功率的比值，这个值越大，则系统可以承受很高的动态。比如1812序曲中的炮声，如果系统动态过小，高于动态范围的信号将被削波（Clipping, 高于0dB的溢出信号将被砍掉，会导致噼里啪啦的声音）。

16bit/44.1kHz、24bit/48kHz、24bit/192kHz

这三种采样，16bit/44.1kHz是CD中音频的采样、24bit/48kHz是DVD中音频的采样（区分：不是DVD Audio），而24bit/192kHz是蓝光中音频的采样。

网友评论

本文标题：音视频基础知识

本文链接：https://www.haomeiwen.com/subject/fxzziftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

音视频基础知识

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读