1.引言

最近准备学习使用ffmpeg库写一些音视频方面的代码。但是对这个库的概念也好，用途也好不是十分的明确，故做一个笔记记录下。

2.正题

FFmpeg:是领先的多媒体框架，能够解码、编码、译码、复用器、解复用器、流、滤波和播放几乎任何人类和机器产生的饮食频。

它包括这样的几个库：libavcodec，libavutil，libavformat，libavfilter，libavdevice，libswscale and libswresample。

libavcodec:提供了一个通用的编码/解码框架包含多种音解码器和编码器，视频和字幕流，和几个比特流过滤器。共享体系结构提供了各种各样的服务，从比特流I/O到DSP优化，使得它适合于实现健壮和快速的编解码器，以及用于实验。

libformat:提供了视频的复用和多路处理功能。实现了流媒体协议（udp、rtp、rtmp、rtsp等），媒体容器（mp4、AVI、Flv等）和基本的I/O访问。rtp,rtcp等协议的详细介绍

libavutil:是一个实用程序库，以帮助便携式多媒体编程。它包含了安全的移动字符串函数，随机数生成器，数据结构，附加数学功能，加密和多媒体相关的功能（如枚举的像素采样格式）。它并不是libavcodec和libav必备的库

libavdevice:抓取和绘制多种多媒体输入/输出设备提供了一个通用的框架，支持多种输入和输出设备，包括video4linux2 vfw dshow ALSA。

libavfilter:是一个通用的音视频后处理库。例如噪音处理

libswcale:执行高度优化的图像缩放和颜色的像素格式转换操作。
具体来说，这个库执行以下操作：
缩放：是改变视频大小的过程。几种缩放选项和算法都可以。这通常是一个有损过程。
像素格式转换：是图像的图像格式和色彩空间转换的过程，例如从平面yuv420p为RGB24包装。它还处理包装转换，即从填充布局（所有属于同一缓冲区内的不同平面的像素）转换为平面布局（所有属于同一平面的样本都存储在专用缓冲区或“平面”）中。
这通常是在源和目标颜色不同的有损压缩。

libswresample:实现音频的重采样和混音，根据平台做了优化（neon等）。
该libswresample库进行高度优化的音频采样，rematrixing和采样格式转换操作。
重采样：是改变音频速率，例如从44100Hz的高采样率到8000Hz的过程。从高至低采样率的音频转换是一种有损的过程。几个重采样选项和算法是可用的。
格式转换：是将样品的类型，例如从16位有符号的样本为无符号的8位或浮样品的过程。它还处理包装的转换，从包装的布局传递时，以平面布局（属于交织在相同缓冲液不同的信道的所有样品）（属于存储在专用缓冲区或“平面”相同的信道的所有样品）。
Rematrixing：是改变频道布局，例如从立体声到单声道的过程。当输入通道不能被映射到输出数据流，该方法是有损耗的，因为它涉及到不同的增益因子和混合。
其他各种音频转换（如拉伸和填充）通过专用的选项启用。

视频播放过程：
首先简单介绍以下视频文件的相关知识。我们平时看到的视频文件有许多格式，比如 avi， mkv， rmvb， mov， mp4等等，这些被称为容器（Container），不同的容器格式规定了其中音视频数据的组织方式（也包括其他数据，比如字幕等）。容器中一般会封装有视频和音频轨，也称为视频流（stream）和音频流，播放视频文件的第一步就是根据视频文件的格式，解析（demux）出其中封装的视频流、音频流以及字幕（如果有的话），解析的数据读到包（packet）中，每个包里保存的是视频帧（frame）或音频帧，然后分别对视频帧和音频帧调用相应的解码器（decoder）进行解码，比如使用 H.264编码的视频和MP3编码的音频，会相应的调用H.264解码器和MP3解码器，解码之后得到的就是原始的图像(YUV or RGB)和声音(PCM)数据，然后根据同步好的时间将图像显示到屏幕上，将声音输出到声卡，最终就是我们看到的视频。
FFmpeg的API就是根据这个过程设计的，因此使用FFmpeg来处理视频文件的方法非常直观简单。下面就一步一步介绍从视频文件中解码出图片的过程。

yuv文件格式的介绍
YUV是被欧洲电视系统所采用的一种颜色编码方法（属于PAL），是PAL和SECAM模拟彩色电视制式采用的颜色空间。在现代彩色电视系统中，通常采用三管彩色摄影机或彩色CCD摄影机进行取像，然后把取得的彩色图像信号经分色、分别放大校正后得到RGB，再经过矩阵变换电路得到亮度信号Y和两个色差信号B－Y（即U）、R－Y（即V），最后发送端将亮度和色差三个信号分别进行编码，用同一信道发送出去。这种色彩的表示方法就是所谓的YUV色彩空间表示。采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。

硬解码和软解码：我们在计算机上播放的视频文件都是经过压缩的，因为这样有利于节约存储空间；那么在播放过程，就需要进行一个反射的解压缩过程。在以前这项工作都是由ＣＰＵ来完成的，对于普通分辨率的ＡＶＩ、ＲＭＶＢ等文件，绝大多数的ＣＰＵ都可以胜任；但是发展到高清视频（１０８０i／p）之后，数据解压缩的工作量比以前翻了数倍，这让很多处理器叫苦不迭。
　　随着技术的发展，工程师们发现显卡的ＧＰＵ／ＶＰＵ要比ＣＰＵ更适合这类大数据量的、低难度的重复工作。视频解码工作从处理器那里分离出来，交给显卡去做，这就叫做“硬解码”，例如ＮＶＤＩＡ的PureVideo、ＡＭＤ的ＵＶＤ技术等等；与之对应的，以前那种纯粹依靠ＣＰＵ来讲稿的方式则是“软解码”。不过受到技术条件的限制，纯粹的“硬解码”在现阶段是不存在的，ＣＰＵ依然在发挥一部分作用，只不过硬解码时ＧＰＵ／ＶＰＵ已经成为运算的主力。