声音编码解码基本原理

作者: 清醒的cola | 来源:发表于2016-12-16 23:56 被阅读591次

    人类的语音信号处理过程依次如下:

    1. 人嘴说话
    2. 声电转换
    3. 抽样(模数转换)
    4. 量化(将数字信号用适当的数值表示)
    5. 编码(数据压缩)
    6. 传输(网络或者其他方式)
    7. 解码(数据还原)
    8. 反抽样(数模转换)
    9. 电声转换
    10. 人耳听声

    不同物种动物的听觉频率范围有哪些?

    • 蝙蝠:1000~120000Hz
      
    • 海豚:2000~100000Hz
      
    •  猫:60~65000Hz
      
    •  狗:40~50000Hz
      
    •  人:20~20000Hz
      

    脉冲编码调制是什么?

    • 未经过数据压缩,直接量化进行传输则被称为PCM(脉冲编码调制)。

    如何计算PCM音频流的码率?

    • 采样率值 × 采样大小值 × 声道数 bps = 码率
    • 例如: 一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。
      也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。
      这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M

    MP3是什么 ?

    • MPEG-1 or MPEG-2 Audio Layer III 一种数字音频编码和有损压缩格式,它被设计来大幅降低音频数据量.

    MP3原理是什么?

    • 它舍弃脉冲编码调制(PCM)音频数据中,对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了压缩成小得多的文件大小。

    AAC 又是什么?

    • 高级音频编码(英语:Advanced Audio Coding,AAC),出现于1997年,基于MPEG-2的音频编码技术。

    比特率是什么?

    • 单位时间内的数据传输率时通常使用码流或码率,单位是kbps(千位每秒)。

    低比特率的注意事项?

    • 使用过低的比特率,“压缩噪声(compression artifact)”(原始录音中没有的声音)将会在回放时出现。

    采样率是什么?

    • 也称为采样速度或者采样频率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。
      实际中,人发出的声音信号为模拟信号,想要在实际中处理必须为数字信号,即采用抽样、量化、编码的处理方案。处理的第一步为抽样,即模数转换。
      简单地说就是通过波形采样的方法记录1秒钟长度的声音,需要多少个数据。
      根据奈魁斯特(NYQUIST)采样定理,用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该波形。
      所以,对于声音信号而言,要想对离散信号进行还原,必须将抽样频率定为40KHz以上。
      实际中,一般定为44.1KHz。44.1KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。

    MP3比特率参考值有哪些?

    * 32 kbit/s—MW(AM)质量
    * 96 kbit/s—FM质量
    * 128 - 160 kbit/s –相当好的质量,有时有明显差别
    * 192 kbit/s—优良质量,偶尔有差别
    * 224 - 320 kbit/s—高质量
    * 800 bit/s –能够分辨的语音所需最低码率(需使用专用的FS-1015 语音编解码器)
    * 8 kbit/s—电话质量(使用语音编码)
    * 32-500 kbit/s -- Ogg Vorbis中使用的有损音频模式
    * 500 kbit/s–1 Mbit/s—无损音频,格式为FLAC,ALAC,WavPack或Monkey's Audio
    * 1411.2 kbit/s—脉冲编码调制(PCM)声音格式为光盘(CD)的数字音频
    * 5644.8 kbit/s—SACD使用的Direct Stream Digital格式
    

    采样率参考值有哪些?

    * 8,000 Hz - 电话所用采样率,对于人的说话已经足够
    * 11,025 Hz
    * 22,050 Hz - 无线电广播所用采样率
    * 32,000 Hz - miniDV数码视频camcorder、DAT(LP mode)所用采样率
    * 44,100 Hz - 音频CD,也常用于MPEG-1音频(VCD, SVCD, MP3)所用采样率
    * 47,250 Hz - Nippon Columbia(Denon)开发的世界上第一个商用PCM录音机所用采样率
    * 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
    * 50,000 Hz - 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率
    * 50,400 Hz - 三菱X-80数字录音机所用所用采样率
    * 96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc(蓝光盘)音轨、和HD-DVD(高清晰度DVD)音轨所用所用采样率
    * 2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。
    

    H5 audio 标签中 各浏览器对音频格式支持情况

    +---------------------+-----+-----+-----+-----+
    | Browser             | Ogg | MP3 | AAC | Wav |
    +---------------------+-----+-----+-----+-----+
    | Internet Explorer 9 | No  | Yes | Yes | No  |
    | Firefox 5           | Yes | No  | No  | Yes |
    | Chrome 12           | Yes | Yes | Yes | Yes |
    | Safari 5            | No  | Yes | Yes | Yes |
    | Opera 11.5          | Yes | No  | No  | Yes |
    +---------------------+-----+-----+-----+-----+
    

    关于延时

    IP网中话音分组的端到端时延,150ms以下的时延,对于大多数应用来说是可接受的;150~400ms之间的时延,在用户预知时延状况的前提下可以接受;大于400ms的时延不可接受。

    关于丢包率

    丢包对VoIP语音质量的影响较大,当丢包率大于10%时,已不能接受,而在丢包率为5%时,基本可以接受。因此,要求IP承载网的丢包率小于5%。

    数据参考 google 维基百科wiki

    相关文章

      网友评论

      本文标题:声音编码解码基本原理

      本文链接:https://www.haomeiwen.com/subject/hbdomttx.html