使用AVAsset转换音频格式

作者: Willie_ | 来源:发表于2017-02-03 12:08 被阅读1806次

    关键词


    AVAsset MP3 PCM 格式 音频 采样 AVAssetReader AVAssetWriter 输出 转换

    本文所有示例代码或Demo可以在此获取:https://github.com/WillieWangWei/SampleCode_MP3ToPCM

    如果本文对你有所帮助,请给个Star👍

    概述


    本文仅讲解所用技术的基本概念以及将MP3转成PCM格式的实际应用,其他格式的相互转换可以修改示例代码实现。关于AVAsset的其他使用场景可以参考这里,音频相关的内容可以参考这里

    首先了解一些概念:

    AVAsset

    它包含于AVFoundation,是一个不可变的抽象类,用来代表一个音视频媒体。一个AVAsset实例可能包含着一个或多个用来播放或处理的轨道,包含但不限于音频、视频、文本以及相关说明。但它并不是媒体资源本身,可以将它理解为时基媒体的容器。

    AVAssetReader

    我们可以使用一个AVAssetReader实例从一个AVAsset的实例中获取媒体数据。

    AVAssetReaderAudioMixOutput

    它是AVAssetReaderOutput的一个子类,我们可以将一个AVAssetReaderAudioMixOutput的实例绑定到一个AVAssetReader实例上,从而得到这个AVAssetReader实例的asset的音频采样数据。

    AVAssetWriter

    我们可以使用一个AVAssetWriter实例将媒体数据写入一个新的文件,并为其指定类型。

    AVAssetWriterInput

    我们可以将一个AVAssetWriterInput的实例绑定到一个AVAssetWriter实例上,从而将媒体采样包装成CMSampleBuffer对象或者元数据集合,然后添加到输出文件的单一通道上。

    PCM

    模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,PCM就是录制声音时保存的最原始的声音数据格式。
    WAV格式的音频其实就是给PCM数据流加上一段header数据。而WAV格式有时候之所以被称为无损格式,就是因为它保存的是原始PCM数据(也跟采样率比特率有关)。常见音频格式比如MP3AAC等等,为了节约占用空间都进行有损压缩。

    代码


    这里列举两种应用场景:

    1. PCM数据写入磁盘保存成文件。
    2. PCM数据转成NSDate保存在内存中。

    这两种场景都需要先读取MP3的数据,然后创建AVAssetReaderAVAssetReaderAudioMixOutput实例,所以前半部分的处理逻辑的一样的。

    通用逻辑

    0.导入头文件

    import AVFoundation
    

    1.创建AVAsset实例

    func readMp3File() -> AVAsset? {
        
        guard let filePath = Bundle.main.path(forResource: "trust you", ofType: "mp3") else { return nil }
        let fileURL = URL(fileURLWithPath: filePath)
        let asset = AVAsset(url: fileURL)
        
        return asset
    }
    

    2.创建AVAssetReader实例

    func initAssetReader(asset: AVAsset) -> AVAssetReader? {
        
        let assetReader: AVAssetReader
        
        do {
            assetReader = try AVAssetReader(asset: asset)
            
        } catch {
            
            print(error)
            return nil
        }
        
        return assetReader
    }
    

    3.配置转码参数

    var channelLayout = AudioChannelLayout()
    memset(&channelLayout, 0, MemoryLayout<AudioChannelLayout>.size)
    channelLayout.mChannelLayoutTag = kAudioChannelLayoutTag_Stereo
    
    let outputSettings = [
        AVFormatIDKey : kAudioFormatLinearPCM,    // 音频格式
        AVSampleRateKey : 44100.0,    // 采样率
        AVNumberOfChannelsKey : 2,    // 通道数 1 || 2
        AVChannelLayoutKey : Data.init(bytes: &channelLayout, count: MemoryLayout<AudioChannelLayout>.size),  // 声音效果(立体声)
        AVLinearPCMBitDepthKey : 16,  // 音频的每个样点的位数
        AVLinearPCMIsNonInterleaved : false,  // 音频采样是否非交错
        AVLinearPCMIsFloatKey : false,    // 采样信号是否浮点数
        AVLinearPCMIsBigEndianKey : false // 音频采用高位优先的记录格式
        ] as [String : Any]
    

    4.创建AVAssetReaderAudioMixOutput实例并绑定到assetReader上

    let readerAudioMixOutput = AVAssetReaderAudioMixOutput(audioTracks: asset.tracks, audioSettings: nil)
    
    if !assetReader.canAdd(readerAudioMixOutput) {
        
        print("can't add readerAudioMixOutput")
        return
    }
    
    assetReader.add(readerAudioMixOutput)
    

    接来下两种场景的处理逻辑就不一样了,请注意区分。

    保存成文件

    5.创建一个AVAssetWriter实例

    func initAssetWriter() -> AVAssetWriter? {
        
        let assetWriter: AVAssetWriter
        guard let outPutPath = NSSearchPathForDirectoriesInDomains(.documentDirectory, .userDomainMask, true).first else { return nil }
    
        // 这里的扩展名'.wav'只是标记了文件的打开方式,实际的编码封装格式由assetWriter的fileType决定
        let fullPath = outPutPath + "outPut.wav"
        let outPutURL = URL(fileURLWithPath: fullPath)
        
        do {
            assetWriter = try AVAssetWriter(outputURL: outPutURL, fileType: AVFileTypeWAVE)
        } catch {
            
            print(error)
            return nil
        }
        
        return assetWriter
    }
    

    6.创建AVAssetWriterInput实例并绑定到assetWriter上

    if !assetWriter.canApply(outputSettings: outputSettings, forMediaType: AVMediaTypeAudio) {
        
        print("can't apply outputSettings")
        return
    }
    
    let writerInput = AVAssetWriterInput(mediaType: AVMediaTypeAudio, outputSettings: outputSettings)
    
    // 是否让媒体数据保持实时。在此不需要开启
    writerInput.expectsMediaDataInRealTime = false
    
    if !assetWriter.canAdd(writerInput) {
        
        print("can't add writerInput")
        return
    }
    
    assetWriter.add(writerInput)
    

    7.启动转码

    assetReader.startReading()
    assetWriter.startWriting()
    
    // 开启session
    guard let track = asset.tracks.first else { return }
    let startTime = CMTime(seconds: 0, preferredTimescale: track.naturalTimeScale)
    assetWriter.startSession(atSourceTime: startTime)
    
    let mediaInputQueue = DispatchQueue(label: "mediaInputQueue")
    writerInput.requestMediaDataWhenReady(on: mediaInputQueue, using: {
        
        while writerInput.isReadyForMoreMediaData {
            
            if let nextBuffer = readerAudioMixOutput.copyNextSampleBuffer() {
                writerInput.append(nextBuffer)
                
            } else {
                
                writerInput.markAsFinished()
                assetReader.cancelReading()
                assetWriter.finishWriting(completionHandler: {
                    print("write complete")
                })
                break
            }
        }
    })
    
    转成NSDate

    5.启动转码

    assetReader.startReading()
    var PCMData = Data()
    
    while let nextBuffer = readerAudioMixOutput.copyNextSampleBuffer() {
        
        var audioBufferList = AudioBufferList()
        var blockBuffer: CMBlockBuffer?
        
        // CMSampleBuffer 转 Data
        CMSampleBufferGetAudioBufferListWithRetainedBlockBuffer(nextBuffer,
                                                                nil,
                                                                &audioBufferList,
                                                                MemoryLayout<AudioBufferList>.size,
                                                                nil,
                                                                nil,
                                                                0,
                                                                &blockBuffer)
        
        let audioBuffer = audioBufferList.mBuffers
        guard let frame = audioBuffer.mData else { continue }
        
        PCMData.append(frame.assumingMemoryBound(to: UInt8.self), count: Int(audioBuffer.mDataByteSize))
        blockBuffer = nil
    }
    
    print("write complete")
    

    注意问题


    性能问题

    转码是个很占用CPU资源的计算过程。
    具体完成一个转码过程的时间取决于文件时长、转码配置、设备性能等多个条件。这是一个典型的耗时操作,务必要做好线程优化。另外,可以根据业务逻辑间歇调用readerAudioMixOutput.copyNextSampleBuffer()及后续操作,降低CPU开销峰值。

    内存管理

    以本文将MP3转成PCM的代码为例,一个时长4分半左右的MP3对应的PCM数据在55MB左右,这些数据占用了大量的内存或磁盘空间,注意释放。你可以通过改变转码配置参数outputSettings来调整输出数据的大小。
    在转码过程中,CMSampleBufferRefCMBlockBufferRef的对象在使用后需要调用CFRelease销毁,以防内存泄漏。

    其他格式的转换

    逻辑是一样的,你可以修改读取和输出的参数实现。注意处理的格式必须是AVFoundation所包含的,可以参考AudioFormatID这个类以及AVMediaFormat.hFile format UTIs。更多音频处理请参考Apple Developer Library :AVFoundation或第三方框架。

    在macOS上转换格式

    macOS上可以使用一个强大的音视频库FFmpeg,它可以帮助你快速转码出需要的音频格式作为调试素材。
    macOS上编译FFmpeg请看这里
    MP3转换成PCM的命令:

    ffmpeg mp3 => pcm    ffmpeg -i xxx.mp3 -f s16le -ar 44100 -ac 2  xxx.pcm
    

    总结


    本文提供了将MP3转成PCM的一种实现,中间涉及了一些音频AVFoundationCoreMedia的知识,这里就不展开了,有问题的同学可以在文章下留言讨论。

    本文所有示例代码或Demo可以在此获取:https://github.com/WillieWangWei/SampleCode_MP3ToPCM

    如果本文对你有所帮助,请给个Star👍

    参考资料:
    Apple Developer Library :AVFoundation
    http://msching.github.io/blog/2014/07/07/audio-in-ios/

    相关文章

      网友评论

        本文标题:使用AVAsset转换音频格式

        本文链接:https://www.haomeiwen.com/subject/xbjrittx.html