美文网首页
语音识别的客户端侧实现

语音识别的客户端侧实现

作者: huangjun0 | 来源:发表于2017-10-20 19:59 被阅读0次

    上文说过客户端有两种实现语音识别,我们都曾经试验和才用过,先说对于客户端来说相对简单的非实时方案。对于实时性要求不高的应用来说,一般是足够满足需求的,微信中的语音识别也是这种非实时的语音方案。(当然还有不需要连接网络,通过客户端本地来实现语音识别的,讯飞和其他几家都有这种SDK,但是体积相对来说比较大,对于语音识别是辅助功能的App来说,可能没有必要)。

    对于IOS客户端来说,系统提供了两个层次的API来提供对录音功能的支持。一种是使用比较底层的纯C代码通过AudioToolBox库中提供的相关接口来实现的,一种是使用OC代码通过AVFoundation中的AVAudioRecorder来实现。前一种更加底层实现起来更加难,但是可以实时获取录音过程中的PCM源码,实现实时录音、上传和识别的功能。后一种,实现起来容易,不过无法实时获取相关的录音数据,只能将全部录音完成以后再上传。

    前一种苹果在2012年曾经公布了一个示例代码SpeakHere来通过AudioToolBox来实现整个录音和播放的过程。不过现在在苹果的网站上找不到了,因为其中很多的代码已经被废弃。在github上有人上传了上去,地址是https://github.com/benvium/SpeakHere

    整个代码虽然是纯c实现的,但是如果只用它来录音的很简单的。基本流程如下:

    1.创建一个AQRecorder

        recorder =newAQRecorder();

    2.初始化AudioSession

        OSStatuserror =AudioSessionInitialize(NULL,NULL, interruptionListener, self);

    3.设置AudioSession的各种属性

        UInt32 category =kAudioSessionCategory_PlayAndRecord;

        error = AudioSessionSetProperty(kAudioSessionProperty_AudioCategory,sizeof(category), &category);

    4.激活AudioSession

        error =AudioSessionSetActive(true);

    5.开始录音

        recorder->StartRecord(CFSTR("recordedFile.caf"));

    其中3中的AudioSession可以设置的属性有很多,其中比较重要的或者经常用到的有如下几个:

    enum { // typedef UInt32AudioSessionPropertyID

        kAudioSessionProperty_AudioCategory= 'acat',

        //UInt32(get/set)主要是设置AudioSession的类别,如果纯粹是录音的话就设置为RecordAudio,录音和播放都有的话就需要设置为PlayAndRecord,其他的很少用到

        kAudioSessionProperty_OtherMixableAudioShouldDuck= 'duck',

        // UInt32(get/set)如果当前允许混合模式(例如允许在后台播放音乐的同时播放当前app的声音或者录音),后台 的这个声音就会变小,前台的app的声音会相对较大

        kAudioSessionProperty_OverrideCategoryMixWithOthers= 'cmix',

        // UInt32(get, some set)如果AudioCategory的设置为PlayAndRecord,设置这个参数就允许后台音乐和当前app的声音混合来播放,或者一边播放后台音乐一边录音

        kAudioSessionProperty_OverrideCategoryDefaultToSpeaker= 'cspk',

        // UInt32(get, some set) )如果AudioCategory的设置为PlayAndRecord,设置这个参数默认就会从speaker发出声音,通常情况下是从receiver发出声音的

        kAudioSessionProperty_OverrideCategoryEnableBluetoothInput= 'cblu',

        // UInt32(get, someset)如果AudioCategory的设置为PlayAndRecord,设置这个参数默认就会允许蓝牙耳机接收和输出音频

    };

    实际上除了这种c的方式设置category还可以通过oc的方式来设置,c的这些函数实际上很多已经被废弃,但是仍然可以使用。OC的代码如下所示:

    [[AVAudioSession sharedInstance]setCategory:AVAudioSessionCategoryPlayAndRecordwithOptions:AVAudioSessionCategoryOptionMixWithOthers error:&activeError];

    其中4是激活audioSession,因为整个app和系统使用的都是同一个audioSession,如果在app中激活audioSession并且不是设置为混合模式的话,会停止正在播放的其他声音和音乐。他也有一个对应的oc的方法。

    [[AVAudioSession sharedInstance] setActive:NO withOptions: AVAudioSessionSetActiveOptionNotifyOtherOnDeactivationerror:&activeError];

    Oc种方法中间的一个参数很重要,如果设置为AVAudioSessionSetActiveOptionNotifyOtherOnDeactivation,那么当前应用将当前已经激活的audioSession设置为非激活状态时,其他的后台音乐或者播放app就会收到通知,此时他们就可以选择继续播放后台音乐了。

    C方法和oc方法按照道理来说,底层的实现都是一样。但是在我们的实际编写代码过程中发现,有时在用oc方法设置为active之后用c方法设置为非active并不起作用。所以还是推荐大家使用oc的方式来设置。而且对于一个在多处使用音频的应用来说,需要很好的设置active和非active。如果进入的时候设置为active最好在退出的时候设置为非active。而且首次设置为active的时候这是一个耗时的操作,如果此时有后天正在播放的因为,这个过程可能需要0.5秒钟,不过一般来说不会这么长时间。

    5中开始录音的话,就涉及到录音格式的选择。Pcm源码是最清晰的但是体积也最大的录音文件格式。除了pcm以外,还有其他的稍微小的格式,例如ALaw、ULaw、IMA4、MPEG4AAC。但是每一种格式都需要设置好相应的参数。其中主要的参数包括:采样率、单双声道、还有各种参数需要设置。其中PhoneGap工程中有部分代码实现了对各种格式的音频文件参数的设置,可以供大家参考。

    kAudioFormatLinearPCM:

        mFormatFlags =kLinearPCMFormatFlagIsSignedInteger | kLinearPCMFormatFlagIsPacked;

        mBitsPerChannel =16;

        mChannelsPerFrame= 1;

        mBytesPerFrame =2;

        mFramesPerPacket= 1;

        mSampleRate = 16000;

        mBytesPerPacket =2;

    kAudioFormatALaw:

    kAudioFormatULaw:

        mSampleRate =16000.0;

        mFormatFlags = 0;

        mFramesPerPacket= 1;

        mChannelsPerFrame= 1;

        mBitsPerChannel =16;

        mBytesPerPacket =1;

        mBytesPerFrame =1;

    kAudioFormatAppleIMA4:

        mSampleRate =16000.0;

        mFormatFlags = 0;

        mChannelsPerFrame= 1;

        mBitsPerChannel =0;

        mFramesPerPacket= 64;

        mBytesPerPacket =68;

    kAudioFormatAppleLossless:

        mFormatFlags = 0;

        mSampleRate =16000.0;

        mBitsPerChannel =0;

        mFramesPerPacket= 4096;

        mBytesPerFrame =0;

        mChannelsPerFrame= 1;

        mBytesPerPacket =0;

    kAudioFormatMPEG4AAC:

        mFormatFlags = 0;

        mBitsPerChannel =0;

        mSampleRate =16000.0;

        mChannelsPerFrame= 1;

        mBytesPerPacket =0;

        mBytesPerFrame =0;

        mFramesPerPacket= 1024;

    相关文章

      网友评论

          本文标题:语音识别的客户端侧实现

          本文链接:https://www.haomeiwen.com/subject/extbuxtx.html