美文网首页
iOS ReplayKit 与 RTC

iOS ReplayKit 与 RTC

作者: 声网 | 来源:发表于2021-01-27 15:05 被阅读0次
    • 作者:声网Agora Cavan*
      在日益繁多的直播场景中,如果你也是某位游戏主播的粉丝的话,有一种直播方式是你一定不陌生的,那就是我们今天要聊的屏幕分享。

    直播场景下的屏幕分享,不仅要将当前显示器所展示的画面分享给远端,也要将声音传输出去,包括应用的声音,以及主播的声音。鉴于这两点需求,我们可以简单分析出,进行一次屏幕分享的直播所需要的媒体流如下:

    1. 一条显示器画面的视频流
    2. 一条应用声音的音频流
    3. 一条主播声音的音频流

    ReplayKit 是苹果提供的用于 iOS 系统进行屏幕录制的框架。

    首先我们来看看苹果提供的用于屏幕录制的 ReplayKit 的数据回调接口:

    override func processSampleBuffer(_ sampleBuffer: CMSampleBuffer, with sampleBufferType: RPSampleBufferType) {
            DispatchQueue.main.async {
                switch sampleBufferType {
                case .video:
                    AgoraUploader.sendVideoBuffer(sampleBuffer)
                case .audioApp:
                    AgoraUploader.sendAudioAppBuffer(sampleBuffer)
                case .audioMic:
                    AgoraUploader.sendAudioMicBuffer(sampleBuffer)
                @unknown default:
                    break
                }
            }
        }
    

    从枚举 sampleBufferType 上,我们不难看出,刚好能符合我们上述对媒体流的需求。

    视频

    格式

    guard let videoFrame = CMSampleBufferGetImageBuffer(sampleBuffer) else {
        return
    }
            
    let type = CVPixelBufferGetPixelFormatType(videoFrame)
    
    type = kCVPixelFormatType_420YpCbCr8BiPlanarFullRange
    

    通过 CVPixelBufferGetPixelFormatType,我们可以获取到每帧的视频格式为 yuv420

    帧率

    通过打印接口的回调次数,可以知道每秒能够获取的视频帧为30次,也就是帧率为 30。

    格式与帧率都能符合 Agora RTC 所能接收的范围,所以通过 Agora RTC 的 pushExternalVideoFrame 就可以将视频分享到远端了。

    agoraKit.pushExternalVideoFrame(frame)
    

    插入一个小知识

    显示器所显示的帧来自于一个帧缓存区,一般常见的为双缓存或三缓存。当屏幕显示完一帧后,发出一个垂直同步信号(V-Sync),告诉帧缓存区切换到下一帧的缓存上,然后显示器开始读取新的一帧数据做显示。

    这个帧缓存区是系统级别的,一般的开发者是无法读取跟写入的。但是如果是苹果自身提供的录制框架 ReplayKit 能够直接读取到已经渲染好且将用于显示器的帧,且这一过程不会影响渲染流程而造成掉帧,那就能减少一次用于提供给 ReplayKit 回调数据的渲染过程。

    音频

    ReplayKit 能提供的音频有两种,分为麦克风录制进来的音频流,与当前响应的应用播放的音频流。(下文将前者称为 AudioMic,后者为 AudioApp)

    可以通过下面的两行代码,来获取音频格式

    CMAudioFormatDescriptionRef format = CMSampleBufferGetFormatDescription(sampleBuffer);
    const AudioStreamBasicDescription *description = CMAudioFormatDescriptionGetStreamBasicDescription(format);
    

    AudioApp

    AudioApp 会在不同的机型下有不一样的声道数。例如在 iPad 或 iPhone7 以下机型中,不具备双声道播放的设备,这时候 AudioApp 的数据就是单声道,反之则是双声道。

    采样率在部分试过的机型里,都是 44100,但不排除在未测试过的机型会是其他的采样率。

    AudioMic

    AudioMic 在测试过的机型里,采样率为 32000,声道数为单声道。

    音频前处理

    如果我们将 AudioApp 与 AudioMic 作为两条音频流去发送,那么流量肯定是大于一条音频流的。我们为了节省一条音频流的流量,就需要将这两条音频流做混音(融合)。

    但是通过上述,我们不难看出,两条音频流的格式是不一样的,而且不能保证随着机型的不同,是不是会出现其他的格式。在测试的过程中还发现 OS 版本的不同,每次回调给到的音频数据长度也会出现变化。那么我们在对两条音频流做混音前,就需要进行格式统一,来应对 ReplayKit 给出的各种格式。所以我们采取了以下几个重要的步骤:

         if (channels == 1) {
            int16_t* intData = (int16_t*)dataPointer;
            int16_t newBuffer[totalSamples * 2];
                    
            for (int i = 0; i < totalSamples; i++) {
                newBuffer[2 * i] = intData[i];
                newBuffer[2 * i + 1] = intData[i];
            }
            totalSamples *= 2;
            memcpy(dataPointer, newBuffer, sizeof(int16_t) * totalSamples);
            totalBytes *= 2;
            channels = 2;
        }
    
    • 无论是 AudioMic 还是 AudioApp,只要进来的流为单声道,我们都将它转化为双声道;
         if (sampleRate != resampleRate) {
            int inDataSamplesPer10ms = sampleRate / 100;
            int outDataSamplesPer10ms = (int)resampleRate / 100;
            
            int16_t* intData = (int16_t*)dataPointer;
            
            switch (type) {
                case AudioTypeApp:
                    totalSamples = resampleApp(intData, dataPointerSize, totalSamples,
                                               inDataSamplesPer10ms, outDataSamplesPer10ms, channels, sampleRate, (int)resampleRate);
                    break;
                case AudioTypeMic:
                    totalSamples = resampleMic(intData, dataPointerSize, totalSamples,
                                               inDataSamplesPer10ms, outDataSamplesPer10ms, channels, sampleRate, (int)resampleRate);
                    break;
            }
            
            totalBytes = totalSamples * sizeof(int16_t);
        }
    
    • 无论是 AudioMic 还是 AudioApp,只要进来的流采样率不为 48000,我们将它们重采样为 48000;
      memcpy(appAudio + appAudioIndex, dataPointer, totalBytes);
      appAudioIndex += totalSamples;
    
        memcpy(micAudio + micAudioIndex, dataPointer, totalBytes);
      micAudioIndex += totalSamples;
    
    • 通过第一步与第二步,我们保证了两条音频流都为同样的音频格式。但是由于 ReplayKit 是一次回调给到一种数据的,所以在混音前我们还得用两个缓存区来存储这两条流数据;
      int64_t mixIndex = appAudioIndex > micAudioIndex ? micAudioIndex : appAudioIndex;
                
      int16_t pushBuffer[appAudioIndex];
                
      memcpy(pushBuffer, appAudio, appAudioIndex * sizeof(int16_t));
                
      for (int i = 0; i < mixIndex; i ++) {
           pushBuffer[i] = (appAudio[i] + micAudio[i]) / 2;
      }
    
    • ReplayKit 有选项是否开启麦克风录制,所以在关闭麦克风录制的时候,我们就只有一条 AudioApp 音频流。所以我们以这条流为主,去读取 AudioMic 缓存区的数据长度,然后对比两个缓存区的数据长度,以最小的数据长度为我们的混音长度。将混音长度的两个缓存区里的数据做融合,得到混音后的数据,写入一个新的混音缓存区(或者直接写入 AudioApp 缓存区);
    [AgoraAudioProcessing pushAudioFrame:(*unsigned* *char* *)pushBuffer
                                       withFrameSize:appAudioIndex * *sizeof*(int16_t)];
    
    • 最后我们再将这段混音后的数据拷贝进 Agora RTC 的 C++ 录制回调接口里,这时候就可以把麦克风录制的声音与应用播放的声音传输到远端了。

    通过对音视频流的处理,结合 Agora RTC SDK,我们就完成了一个屏幕分享直播场景的实现了。

    具体的实现上的细节,可以参考 https://github.com/AgoraIO/Advanced-Video/tree/master/iOS%26macOS/Agora-Screen-Sharing/Agora-Screen-Sharing-iOS

    相关文章

      网友评论

          本文标题:iOS ReplayKit 与 RTC

          本文链接:https://www.haomeiwen.com/subject/anrazktx.html