iOS音视频同步探讨

作者: 字节跳动技术团队 | 来源:发表于2018-05-25 10:30 被阅读168次

iOS音视频同步探讨
线程锁
FFmpeg命令行工具ffplay
iOS音视频
iOS 音视频开发（一）常用音视频框架介绍
字节跳动-谈下音视频同步原理，音频和视频能绝对同步吗
图片资源音视频文件添加header防盗链Referer iOS
iOS - 采集音视频及写入文件
使用rtcp实现音视频同步
iOS线程同步

音视频同步是我们观看视频的一个基本体验，尤其对于视频画面中能看到声源动作（如：嘴型）的场景，音视频同步问题非常影响体验。

在短视频与直播APP中，采集端作为音视频的生产者，如果采集端产生的音视频源本身就无法保证同步，那么后面不管经过什么处理，都很难再让用户看到音视频同步的画面了，因此，在采集端保证音视频同步上尤其重要。

那么如何保证app在各种正常/非正常状况下尽量保证输出同步的音视频？本文就是讲述我们是如何解决上述问题的。

音视频同步的原理

音视频采集的数据分别来自于麦克风与摄像头，而摄像头与麦克风其实是两个独立的硬件，而音视频同步的原理是相信摄像头与麦克风采集数据是实时的，并在采集到数据时给他们一个时间戳来标明数据所属的时间，而编码封装模块只要不改动音视频时间的相对关系就能保证音频与视频在时间上的对应。如此封装好数据之后，播放端就能够根据音视频的时间戳来播放对应的音视频，从实现音视频同步的效果。

时间戳参考标准

取格林威治时间做为对比标准，即音视频时间戳都为采集时间点相对于格林威治标准时间的时间差
取系统开机时间做为对比标准，即音视频时间戳都是采集时间点相对于手机开机时间的时间差。目前iOS上AVCaptureSession这套API就是参考这个时间标准给的时间戳
其它时间戳标准

基于“开源项目1”的音视频同步探讨

1. 原生某开源框架

如图：
image
简介
音/视频被采集到之后会先经过音/视频处理模块，音/视频在被处理之后才进入计算时间戳的模块
在第一帧到达时记一个计时起点，然后根据采集的帧间隔对接下来每一帧的时间戳进行计算：frameTimeStamp = lastFrameTimeStamp + frameDuration
优点
能输出frame duration稳定的音视频时间戳
风险
无论是音频还是视频，在手机过热、性能不足等极端情况下有可能出现采集不稳定的情况，比如说预计1s采集30帧，实际只采集到28帧，而音视频的时间戳是通过累加来计算的，这样就有会出现音视频不同步的情况
Video Process(人脸检测、滤镜、3D贴纸)有可能无法在一帧时间内处理完当前帧，这样就会出现帧数比预期低的情况，从而出现音视频不同步
帧间隔涉及到无限小数时，因为计算机的精度有限会引发的时间戳偏移，此偏移会随着帧数的增加而逐渐被放大

基于开源项目1的改进方案1

如图

image

简介
音/视频被采集到之后会先经过音/视频处理模块，音/视频在被处理之后才进入计算时间戳的模块
时间戳的获取方法非常直接——每一帧都在改帧进入时间戳计算模块时获取当前系统时间作为时间戳
优点：
APP性能正常的情况下肯定不会出现音视频不同步
能够实时纠正时间戳，只要APP正常运转，就能立即恢复正确的时间戳
风险：
依赖Video Process与Audio Process模块处理时长相近，而实际工程中因为人脸检测、贴纸等原因，Video Process可能会出现阻塞的情况，从而导致临时性的音视频不同步
在Audio Process与Video Process模块处理帧耗时不均匀的情况下会出现音视频时间戳不均匀的问题，能否正常播放依赖于终端