1 概述
经过H264编码器编码后输出的H264裸流数据,输出的形式是以nalu的格式输出的,主要分为两层,VCL(视频编码层)和NAL(网络提取层),VCL主要负责表示压缩后的视频数据,像块、宏块、片等。NAL主要是在VCL之上针对于网络传输提取出来的层级。然后NALU到达rtp封包模块进行封包,以下内容详细描述。
1.1 Nalu 结构格式
一个原始的H.264 NALU单元常由[StartCode] [NALU Header] [NALU Payload]三部分组成,其中 Start Code 用于标示这是一个NALU 单元的开始,必须是"00 00 00 01" 或"00 00 01",除此之外基本相当于一个NAL header + RBSP;
RBSP、SODB、EBSP三者的区别和联系
(1)SODB:最原始的编码数据,没有任何附加数据
(2)RBSP:在SODB的基础上加了rbsp_stop_ont_bit(bit 值为 1)并用 0 按字节补位对齐
(3)EBSP:在 RBSP 的基础上增加了防止伪起始码字节(0X03)
(4)NALU是对RBSP的封装。而RTP之类的是对NALU的封装。
具体格式参见下图
![](https://img.haomeiwen.com/i6408556/2975e750c48f3478.png)
![](https://img.haomeiwen.com/i6408556/50056e6db60c0870.png)
1.2 rtp包格式
rtp包头如下:
![](https://img.haomeiwen.com/i6408556/ae7e59dd977bddaa.png)
-
V:RTP协议的版本号,占2位,当前协议版本号为2
-
P:填充标志,占1位,如果P=1,则在该报文的尾部填充一个或多个额外的八位组,它们不是有效载荷的一部分。
-
X:扩展标志,占1位,如果X=1,则在RTP报头后跟有一个扩展报头
-
CC:CSRC计数器,占4位,指示CSRC 标识符的个数
-
M: 标记,占1位,不同的有效载荷有不同的含义,对于视频,标记一帧的结束;对于音频,标记会话的开始。
-
PT: 有效荷载类型,占7位,用于说明RTP报文中有效载荷的类型,如GSM音频、JPEM图像等,在流媒体中大部分是用来区分音频流和视频流的,这样便于客户端进行解析。
-
序列号:占16位,用于标识发送者所发送的RTP报文的序列号,每发送一个报文,序列号增1。这个字段当下层的承载协议用UDP的时候,网络状况不好的时候可以用来检查丢包。同时出现网络抖动的情况可以用来对数据进行重新排序,序列号的初始值是随机的,同时音频包和视频包的sequence是分别记数的。
-
时戳(Timestamp):占32位,必须使用90 kHz 时钟频率。时戳反映了该RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动,并进行同步控制。
-
同步信源(SSRC)标识符:占32位,用于标识同步信源。该标识符是随机选择的,参加同一视频会议的两个同步信源不能有相同的SSRC。
-
特约信源(CSRC)标识符:每个CSRC标识符占32位,可以有0~15个。每个CSRC标识了包含在该RTP报文有效载荷中的所有特约信源。
rtp头后的负载,负载的封包格式有负载的第一个自己的后5位决定,具体格式如下图.
![](https://img.haomeiwen.com/i6408556/c8893e962b26e65b.png)
右上图可以看出和nalu的header格式一样,但是后5位表示的含义不相同。nalu表示的是slice类型,对于rtp payload代表后面的数据的打包方式。type取值如下:
0 没有定义
1-23 NAL单元 单个 NAL 单元包.
24 STAP-A 单一时间的组合包
25 STAP-B 单一时间的组合包
26 MTAP16 多个时间的组合包
27 MTAP24 多个时间的组合包
28 FU-A 分片的单元
29 FU-B 分片的单元
30-31 没有定义
以上类型大概可以分为三类:
- 单个 NAL 单元包:荷载中只包含一个 NAL 单元。 NAL 头类型域等于原始 NAL 单元类型, 即在范围 1到 23 之间;
- 聚合包:本类型用于聚合多个 NAL 单元到单个 RTP 荷载中。有四种版本, 单时间聚合包类型 A(STAP-A) ,单时间聚合包类型 B (STAP-B) ,多时间聚合包类型(MTAP)16 位位移(MTAP16), 多时间聚合包类型(MTAP)24 位位移(MTAP24) 。赋予 STAP-A, STAP-B, MTAP16, MTAP24 的 NAL 单元类型号分别是 24,25, 26, 27;
- 分片单元: 由于单个nal的大小超过了一个rtp传输负载的mtu,所以将其进行分片,用于分片单个 NAL 单元到多个 RTP 包。 现存两个版本 FU-A, FU-B, 用 NAL 单元类型 28,29 标识;
1.2.1 单个 NAL 单元包
![](https://img.haomeiwen.com/i6408556/efe3eeb359d1416b.png)
定义在此的NAL单元包必须只包含一个。这意味聚合包和分片单元不可以用在单个NAL 单元包中。并且RTP序号必须符合NAL单元的解码顺序。NAL单元的第一字节和RTP荷载头第一个字节重合。
1.2.2 聚合包
-
STAP-A
STAP-A 聚合2个NALU
抓包webrtc中sps、pps封包,如下:
sps\pps 封包抓包场景.png
-
STAP-B
STAP-B 封包格式
STAP-B比STAP-A多了一个公共的DON,DON域指定STAP-B传输顺序中第一个NAL单元的DON值. 对每个后续出现在STAP-B中的NAL单元,它的DON值等于(STAP-B中前一个NAL的DON值+1)%65535, %是取模运算。
单时刻聚合单元有一个16位无符号大小信息(网络字节序),他指示后续NAL单元的大小(以字节为单位)(不包括这两个字节,但包括NAL单元类型字节),后面紧跟NAL单元本身, 包括它的NAL单元类型字节. 单时刻聚合单元在RTP荷载中是字节对齐的,但可以不是32位字边界对齐。
-
MTAP16/24
MTAP16/24 格式
两个不同多时刻聚合单元。两个都有16位的无符号大小信息用于后续NAL单元(网络字节序),一个8位无符号解码序号差值(DOND), 和n位 (网络字节序) 时戳位移(TS 位移)用于本NAL单元,n可以是16/24. 不同MTAP类型的选择是应用相关的(MTAP16/MTAP24): 时戳位移越大, MTAP的灵活性越大, 但是负担也越大。
MTAP16/MTAP24多时刻聚合单元的结构分别在图 10 ,11表示。一个包中的聚合单元的开始/结束不要求位于32位的边界。跟随NAL单元的DON 等于(DONB + DOND) % 65536, %代表取摸操作. 本文没有指定MTAP内的NAL单元如何排序,但大多数情况,应该使用NAL单元解码顺序。
时戳位移域必须设置成等于以下公式的值:如果NALU-time大于等于包的RTP时戳,则时戳位移等于(NALU-time - 包的RTP时戳).
如果NALU-time小于包的RTP时戳,则时戳位移等于 NALU-time + (2^32 - 包的RTP时戳).
1.2.3 分片单元(FU-A、FU-B)
本荷载类型允许分片一个NAL单元到几个RTP包中。
![](https://img.haomeiwen.com/i6408556/76a67c7ed1af1d24.png)
![](https://img.haomeiwen.com/i6408556/5487c3ea57788428.png)
FU indicator对应格式:
![](https://img.haomeiwen.com/i6408556/6f9c0e39fcce2df3.png)
其中type=28,29表示FU-A和FU-B
FU header对应格式:
![](https://img.haomeiwen.com/i6408556/cb66fb13d1da637d.png)
S: 1 bit
当设置成1,开始位指示分片NAL单元的开始。当跟随的FU荷载不是分片NAL单元荷载的开始,开始位设为0。
E: 1 bit
当设置成1, 结束位指示分片NAL单元的结束,即, 荷载的最后字节也是分片NAL单元的最后一个字节。当跟随的FU荷载不是分片NAL单元的最后分片,结束位设置为0。
R: 1 bit
保留位必须设置为0,接收者必须忽略该位。
Type: 5bit
与NALU Header type 对应
![](https://img.haomeiwen.com/i6408556/8861360718224f38.png)
标准文档
http://www.rosoo.net/Files/UpFiles/RsProduct/avtools/2009-4/2009491562537854.txt
网友评论