一、H.264/AVC是什么?
1.定义
H.264/AVC标准是由ITU-T和ISO/IEC联合开发的,定位于覆盖整个视频应用领域,包括:低码率的无线应用、标准清晰度和 高清晰度的电视广播应用、Internet上的视频流应用,传输高清晰度的DVD视频以及应用于数码相机的高质量视频应用等等。
ITU-T给这个标准命名为H.264(以前叫做H.26L),而ISO/IEC称它为MPEG-4 高级视频编码(Advanced Video Coding,AVC),并且它将成为MPEG-4标准的第10部分。既然AVC是当前MPEG-4标准的拓展,那么它必然将受益于MPEG-4开发良好的基础结构(比如系统分层和音频等)。很明显,作为MPEG-4高级简洁框架(Advanced Simple Profile,ASP)的MPEG-4 AVC将会优于当前的MPEG-4视频压缩标准,它将主要应用在具有高压缩率和分层次质量需求的方向。
就像在下边“视频编码历史”表格中看到的,ITU-T和ISO/IEC负责以前所有的国际视频压缩标准的定制。到目前为止,最成功的视频标准是MPEG- 2,它已经被各种市场领域所广泛接受比如DVD、数字电视广播(覆盖电缆和通讯卫星)和数字机顶盒。自从MPEG-2技术产生以来,新的 H.264/MPEG-4 AVC标准在编码效率和质量上有了巨大的提高。随着时间的过去,在许多现有的应用领域,H.264/MPEG-4 AVC将会取代MPEG-2和MPEG-4,包括一些新兴的市场(比如ADSL视频)。
2.数字视频编解码技术的演变
国际标准通常是由国际标准化组织ISO在国际电信联盟 ITU的技术建议的基础上制订的。数字视频编解码标准也经历了多次变革,H264标准使运动图像压缩技术上升到了一个更高的阶段,在较低带宽上提供高质量的图像传输是H.264的应用亮点。H.264的推广应用对视频终端、网守、网关、MCU等系统的要求较高,将有力地推动视频会议软设备在各个方面的不断完善。
3.H.264的核心竞争力**
H.264最具价值的部分无疑是更高的数据压缩比。压缩技术的基本原理就是将视频文件中的非重要信息过滤,以便让数据能够更快地在网络中传输。在同等的图像质量条件下,H.264的数据压缩比能比当前DVD系统中使用的MPEG-2高2-3倍,比MPEG-4高1.5-2倍。正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。
在MPEG-4需要6Mbps的传输速率匹配时,H.264只需要3Mbps-4Mbps的传输速率。我们用交通运输来做更加形象的比喻:同样是用一辆卡车运输一个大箱子,假如MPEG-4能把箱子减重一半,那么H.264能把箱子减重为原来的1/4,在卡车载重量不变的情况下,H.264比MPEG-2 让卡车的载货量增加了二倍。
H.264获得优越性能的代价是计算复杂度的大幅增加,例如分层设计、多帧参论、多模式运动估计、改进的帧内预测等,这些都显著提高了预测精度,从而获得比其他标准好得多的压缩性能。
不断提高的 硬件处理能力和不断优化的软件算法是H.264得以风行的生存基础。早在十年前,主频为几十兆的CPU就达到了顶级,而如今普通的台式机,CPU的主频已经高达几千兆。按照摩尔定律的说法,芯片单位面积的容量每18个月翻一番,因此H.264所增加的运算复杂度相对于性能提升效果而言微不足道。更何况新的计算方法层出不穷,也相对缓解H.264对处理速度的饥渴需求。
4.H.264 与MPEG-4的比较
在极低码率(32-128Kbps)的情况下,H.264与MPEG-4相比具有性能倍增效应,即:相同码率的H.26L媒体流和MPEG-4媒体流相比,H.26L拥有大约3个分贝的增益(画质水平倍增)。 32Kbps的H.26L媒体流,其信躁比与128K的MPEG-4媒体流相近。即在同样的画面质量下,H.264的码率仅仅为MPEG-4的四分之一。
二、为什么要对视频编码
视频是由一帧帧的图像组成,就像gif图片一样。一般视频为了不会让人感觉到卡顿,一秒钟至少需要16帧画面(一般30帧)。
假设视频是一个1280 x 720的分辨率,那么不经过编码一秒钟传输的大小为1280 x 720 x 60 (60fps) x 3 (rgb为3通道需要3字节,yuv420为1.5) = 165M
。所以不经过编码的视频根本没法保存和传输。现在市面上主要将编码分为两大类H.264和MPEG。后面一种主要用于DVD,机顶盒等设备。h264编码是一种主流的编码格式。另外H265也属于其中的一种,比如我们电影院播放的电影,一些高清的电视采用的就是这种编码技术。
H264由于算法优化,可以低于1Mbps的速度实现标清数字图像传送;新一代的H265则可以实现利用1~2Mbps的传输速度传送720P(分辨率1280*720)普通高清音视频传送,同样的画质和同样的码率,H.265比H2.64 占用的存储空间要少理论50%,但是h264普及性要高出很多。
三、H264编码规则
- 在相邻的几幅画面中,一般有差别的像素是10%以内的点,亮度差值变化不超过20%,而色度差值的变化只有不到1%,所以对于一段变化不大的画面,我们可以先编码成一个完整的图片帧A,即I帧
- 随后的B帧就不编码全部图像,只写入A帧的差别,这样B帧的大小只有完整帧大小的10%或者更小!B帧之后的C帧如果变化不大,我们可以继续以参考B帧的方式进行编码,依次循环下去。
- 这段图像我们称之为一个序列:序列就是有相同特点的一段数据。当某个图像与之前的图像变化很大,无法根据前面的帧来生成,我们就结束上一段序列,开启下一段序列,也就是对这个图像生成完整的帧A1,随后的帧将参考A1帧,只写入与A1差别的内容。这个序列就是GOP序列,我们也可以把它当作一个场景,比如场景A和场景B,场景A的背景是红色,场景B的背景是绿色,那么A和B就是两个序列。每个序列是从I帧开始的,并且是唯一的,后面是B帧和P帧。两个I帧之间就是一个序列。
四、I帧P帧和B帧
根据上述规则,经过压缩后的帧分为:I帧,P帧和B帧:
-
I帧:关键帧,采用帧内压缩技术。进行JPEG压缩编码,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)。帧内一般采用有损压缩算法,由于帧内压缩是编码一个完整的图像,所以可以独立的解码、显示。帧内压缩一般达不到很高的压缩,跟编码jpeg差不多。也称空间压缩。
-
P帧:向前参考帧,在压缩时,只参考前面已经处理的帧。采用帧音压缩技术。P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)。针对帧间差异,也称为帧间(Interframe)压缩。
-
B帧:双向参考帧,在压缩时,它即参考前而的帧,又参考它后面的帧。采用帧间压缩技术。B帧记录的是本帧与前后帧的差别(具体比较复杂,有4种情况),换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累~.
加大B帧的数量可以有效地提高视频数据的压缩比,但是在实时互动的环境下,过多的B帧会引起延时,因为B帧会过分的依赖于前后帧,在网络好的环境下,可以正常的传输帧,这样没有什么问题,但是在网络不好的时候,B帧会等待其他帧到来,会引起延时。
注:I、B、P各帧是根据压缩算法的需要,是人为定义的,它们都是实实在在的物理帧。一般来说,I帧的压缩率是7(跟JPG差不多),P帧是20,B帧可以达到50。可见使用B帧能节省大量空间,节省出来的空间可以用来保存多一些I帧,这样在相同码率下,可以提供更好的画质。
还有一个概念是,IDR帧:
一个序列的第一个图像叫做 IDR 图像(立即刷新图像),IDR 图像都是 I 帧图像。
H.264 引入 IDR 图像是为了解码的重同步,当解码器解码到 IDR 图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列。这样,如果前一个序列出现重大错误,在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。IDR 图像一定是 I 图像,但I图像不一定是 IDR 图像。一个序列中可以有很多的I图像,I 图像之后的图像可以引用 I 图像之间的图像做运动参考。
I帧不用参考任何帧,但是之后的P帧和B帧是有可能参考这个I帧之前的帧的。IDR就不允许这样,例如:
IDR
H.264引入 IDR 图像是为了解码的重同步,当解码器解码到 IDR图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列。这样,如果前一个序列出现重大错误,在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。
继续再多补充一个概念,序列(GOP):
一个序列就是一段内容差异不太大的图像编码后生成的一串数据流。当运动变化比较少时,一个序列可以很长,因为运动变化少就代表图像画面的内容变动很小,所以就可以编一个 I 帧,然后一直 P 帧、B 帧了。当运动变化多时,可能一个序列就比较短了,比如就包含一个 I 帧和 3、4个P帧。
视频传输中会出现连个比较常见的现象,花屏和卡顿:
(1)如果在GOP分组中的P帧丢失,会造成解码端的图像发生错误。这就是花屏。GOP一组帧呈现出的连贯效果,由于P帧丢失,它需要更新的部分就没有,所以无法正常呈现。故出现花屏现象。
(2)为了解决花屏的问题发生,我们可以将丢失 P帧 或是 I帧 的 GOP 丢掉(包含其中的所有帧),直到下一个I帧再重新刷新图像。但是由于这一帧丢掉了,所以会出现卡顿。
五、NALU单元
前面已经说过编码的目的就是为了方便传输(指文件传输,网络流传输等)。但是我们并不能把一帧帧传过去,一帧的内容几十k也是太大了,还需要细分才能更好的传输,所以我们需要更小的传输单元,保证更高的压缩性、容错性以及实时观看性。那么就引入了NALU单元
上图可以看到,一帧数据(一张图片)是由很多个NALU单元组成,一个NALU单元分为两部分:NAL头和RBSP
1、NAL头:标识NAL单元中的RBSP数据类型,其中,nal_unit_type为1, 2, 3, 4, 5的NAL单元称为VCL的NAL单元,其他类型的NAL单元为非VCL的NAL单元
0:未规定
1:非IDR图像中不采用数据划分的片段
2:非IDR图像中A类数据划分片段
3:非IDR图像中B类数据划分片段
4:非IDR图像中C类数据划分片段
5:IDR图像的片段
6:补充增强信息(SEI)
7:序列参数集(SPS)
8:图像参数集(PPS)
9:分割符
10:序列结束符
11:流结束符
12:填充数据
13:序列参数集扩展
14:带前缀的NAL单元
15:子序列参数集
16 – 18:保留
19:不采用数据划分的辅助编码图像片段
20:编码片段扩展
21 – 23:保留
24 – 31:未规定
2、RBSP:又被成为切片,每个切片是由片头和片数据组成,片数据是由若干个宏块组成。包括序列参数集 SPS 和 图像参数集 PPS
3、SPS和PPS
概念:包含了初始化H.264编码所需要的信息参数。包括编码所用的profile,level,图片的宽和高,deblock滤波器等
- SPS
即Sequence Paramater Set,又称作序列参数集。SPS中保存了一组编码视频序列(Coded video sequence)的全局参数。存放包括:帧数、参考帧数目、解码图像尺寸、帧场编码模式选择标识等。所谓的编码视频序列即原始视频的一帧一帧的像素数据经过编码之后的结构组成的序列。而每一帧的编码后数据所依赖的参数保存于图像参数集中。一般情况SPS和PPS的NAL Unit通常位于整个码流的起始位置。但在某些特殊情况下,在码流中间也可能出现这两种结构,主要原因可能为:
a. 解码器需要在码流中间开始解码;
b. 编码器在编码的过程中改变了码流的参数(如图像分辨率等); - PPS
H.264中另一重要的参数集合为图像参数集Picture Paramater Set(PPS)。和图像相关的参数集,存放包括:熵编码模式选择标识、片组数目、初始量化参数和去方块滤波系数调整标识等。通常情况下,PPS类似于SPS,在H.264的裸码流中单独保存在一个NAL Unit中,只是PPS NAL Unit的nal_unit_type值为8;而在封装格式中,PPS通常与SPS一起,保存在视频文件的文件头中。
在一组帧之前,首先要收到SPS 和 PPS ,不然的话是无法解码的。这两组数据划分为I帧,是不能丢的。
在H.264编码中都是以"0x00 0x00 0x01"或者"0x00 0x00 0x00 0x01"为开始码的,找到开始码后,使用开始码后的第一个字节的低5位判断是否为7(sps)或8(pps),即data[4]&0x1f==7或data[4]&0x1f==8。然后对获取的nal去掉开始码之后进行base64编码,得到的信息就可以用于sdp,sps,pps,需要用逗号隔开。
H264编码过程可参照,图文: https://blog.csdn.net/qq_28090573/article/details/89878842
网友评论