音视频

作者: 阿帕奇UP | 来源:发表于2020-04-07 21:48 被阅读0次

音视频的应用

  • 直播类: 音视频会议、教育直播、娱乐/游戏直播等

  • 短视频:抖音、快手

  • 网络视频: 优酷、腾讯视频、爱奇艺等

  • 音视频通话:微信、QQ、Skype等

  • 视频监控

  • 人工智能:人脸识别、智能音箱等,主要关注算法。

常用的工具及其安装

  • ffmpeg

  • ffplay

  • vlc

ffmpeg 安装方式

  1. brew 安装

    brew install ffmpeg

  2. 源码安装

    1. 下载ffmpeg

      git clone https://git.ffmpeg.org/ffmpeg.git

    2. 编译ffmpeg

      ./configure --prefix=/usr/local/ffmpeg --enable-debug=3

      make -j 4

      make install

安装成功后:

$ ffmpeg -version
ffmpeg version 4.2.2 Copyright (c) 2000-2019 the FFmpeg developers
built with Apple clang version 11.0.0 (clang-1100.0.33.17)
configuration: --prefix=/usr/local/Cellar/ffmpeg/4.2.2_2 --enable-shared --enable-pthreads --enable-version3 --enable-avresample --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libbluray --enable-libmp3lame --enable-libopus --enable-librubberband --enable-libsnappy --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-librtmp --enable-libspeex --enable-libsoxr --enable-videotoolbox --disable-libjack --disable-indev=jack
libavutil 56. 31.100 / 56. 31.100
libavcodec 58. 54.100 / 58. 54.100
libavformat 58. 29.100 / 58. 29.100
libavdevice 58. 8.100 / 58. 8.100
libavfilter 7. 57.100 / 7. 57.100
libavresample 4. 0. 0 / 4. 0. 0
libswscale 5. 5.100 / 5. 5.100
libswresample 3. 5.100 / 3. 5.100
libpostproc 55. 5.100 / 55. 5.100 

播放器架构
解复用 -> 音频解码/视频解码 -> 音频播放/视频播放

渲染流程
YUV -> 渲染 纹理 -> 交换 窗口展示

FFmpeg是一个非常优秀的多媒体框架,可以运行在Linux、Mac、Windows等平台上。
能够解码、编码、转码、复用、解复用、过滤音频视频数据。

音频处理流程

直播客户端的处理流程

​ 音视频的采集 --> 音视频编码(有损编码/无损编码) --> 传输 --> 音视频解码 --> 音视频渲染

音频数据的流转

音频的采集过程:
通过设备将环境中的模拟信号采集成PCM编码的原始数据,然后编码压缩成MP3等格式的数据分发出去。
常见的音频压缩格式有:MP3,AAC,OGG,WMA,Opus,FLAC,APE,m4a 和 AMR 等。

​ PCM --> acc/mp3 --> mp4/flv --> 传输 --> mp4/flv --> acc/mp3 --> PCM

声音

  • 声音是由物体振动产生的
  • 它可以通过空气、固体、液体等介质进行传输
  • 振动耳膜

人类听觉范围

人类听觉范围

声音三要素

  • 音调:音频的快慢 男生 -> 女生 -> 儿童
  • 音量:振动的幅度
  • 音色:谐波


    甲的音量更高
    甲的音调更高
绿色为基频。红色的为谐波,有两个小谐波合成

模数转换

声音波形 --> 对声音进行量化采样 --> 量化后的数字信息 --> 十进制转二进制 --> 二进制方波


对声音进行量化 量化后的数字信息 二进制方波

音频原始数据

原始数据格式:

  • PCM
  • WAV

量化基本概念

  • 采样大小: 一个采样用多少bit存放。 常用的是16bit
  • 采样率:采样频率 8k, 16k, 32k, 44.1k, 48k。 采样率越高,音质越好,数据量越大,数字信号越接近模拟信号。打电话通常为 8k
  • 声道数:单声道,双声道,多声道

码率计算

一个PCM音频流的码率 = 采样率 * 采样大小 * 声道数。
例如,采样率为44.1KHz,采样大小为16bit,双声道PCM编码的WAV文件,它的码率为 44.1K * 16 * 2 = 1411.2Kb/s。
这么大的码流,显然无法在我们网络上传输。需要进行压缩。


WAV Header WAV 例子

通过命令方式采集音频数据

$ ffmpeg -f avfoundation -i :0 out.wav      // ctrl + c 结束录制
$ ffplay out.wav     // 播放音频

相关文章

网友评论

      本文标题:音视频

      本文链接:https://www.haomeiwen.com/subject/idbophtx.html