美文网首页iOS
山寨一个Siri

山寨一个Siri

作者: dimsky | 来源:发表于2016-12-26 00:32 被阅读1025次

    SiriKit 从6月份的 WWDC2016 推出已经有一段时间了,不少应用也慢慢的适配了Siri,但是可能很多童鞋还没有来得及去试试,下面我们先试一下:

    QQ

    我们可以在在设置里查看已经适配Siri 的应用,可以在这里将应用打开权限,也可以在Siri 触发的时候通过提示来打开。

    目前我知道的已经适配了Siri 的应用

    SiriKit 是以 Extension 的方式来给已有App 来提供支持,就目前Siri 支持的intent来说,还是有很多使用的限制,只能针对特定的词汇通过命令来进行识别处理。这里不介绍如何使用SiriKit ,下面我想利用iOS中 目前已经公开的其他 API 实现一个应用内的语音助手,来理解Siri 的实现。

    其实想要实现Siri,我们只需要先将语音进行识别,然后再将语音内容进行分析,然后再将分析出来的结果进行输出,当然这输出不只是语音,也可能是一些反馈信息和一些事件处理。
    下面我们先来实现语音识别。

    语音识别

    Speech framework 也是在WWDC 2016 推出的一个语音识别框架,并且支持多种语言,Siri 也是基于此框架来进行语音识别。还在iOS 3 、4 时代的时候就已经开始有一些第三方的语音识别框架,但那时候不是价格高就是识别不精准,导致很多应用软件对语音识别都望而却步。但目前的语音识别技术都已经炉火纯青,就中文来说,不仅仅是已经能够识别出普通话,还能识别出粤语。科大讯飞在国内应该是语音识别技术做的最好的了,在几年前就已经实现了离线语音识别的功能。
    Speech 当然也不甘落后,也提供了离线的语音识别,速度和精准度也不必多说。

    苹果一直都是呈现出来最简单最易用的API 给开发者, 所以通过Speech 实现一个语音识别功能就是分分钟搞定。

    主要类有:

    1. SFSpeechRecognizer
    2. SFSpeechRecognitionRequest
      1). SFSpeechURLRecognitionRequest
      2). SFSpeechAudioBufferRecognitionRequest
    3. SFSpeechRecognitionTask
    4. SFSpeechRecognitionResult

    简单四步实现语音识别

    // 请求获取语音识别权限
    SFSpeechRecognizer.requestAuthorization { (status) in   . . . }
    
    // 初始化中文语音识别
    let speechRecongnizer = SFSpeechRecognizer(locale: Locale(identifier: “zh_CN”))
    
    // 初始化识别请求
    let recognitionRequest = SFSpeechURLRecognitionRequest(url: NSURL(string: "...")!)
    
    // 请求获取语音识别
    let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler:{ (result, error) in
        if let result = result {
            print(result.bestTranscription.formattedString)
            let isFinal = result.isFinal
        }
     })
    

    这里我们需要实现实时语音识别并转化有效信息,就需要使用SFSpeechAudioBufferRecognitionRequest来通过缓冲流实时将语音转化为有效文字信息。

    let audioEngine = AVAudioEngine()
    let recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
    guard let inputNode = audioEngine.inputNode else {
        fatalError("audioEngine error")
    }
    let recordingFormat = inputNode.outputFormat(forBus: 0)
    inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
        recognitionRequest?.append(buffer)
    }
    let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in
        var isFinal = false
        if let result = result {
            print(result.bestTranscription.formattedString)
        }
    })
    
    audioEngine.prepare()
    do {
        try audioEngine.start()
    } catch {
        print("couldn't start")
    }
    

    这样我们就可以实时监听语音输入流自动转化为文字了,下面我们需要对文字进行解析,然后将反馈信息读出来。

    语音朗读

    AVSpeechSynthesizer 是随着iOS 7.0 而推出的一个文字转语音的特性,几行代码就能实现文字转成语音播放出来,

    1. AVSpeechSynthesizer
    2. AVSpeechUtterance
    3. AVSpeechSynthesisVoice
    // 通过文字初始化话语
    let utterance = AVSpeechUtterance(string: "语音转文字")
    
    // 设置语言
    utterance.voice = AVSpeechSynthesisVoice(language: "zh-CN")
    
    // 读出来
    let synthesizer = AVSpeechSynthesizer()
    synthesizer.speak(utterance)
    

    通过分词解析并反馈

    下面我们就可以解析出一些词汇或命令来做出相应的反馈。就比如

    var string = ""
    if action.contains("叫爸爸") || action.contains("喊爸爸") {
        string = "爸爸"
    } else if action.contains("笑话") {
        string = "我有个直觉,圣诞节那天,可能会有个人捧着鲜花和礼物对我说, 让一让兄弟,挡路了。"
    } else if action.contains("绕口令") {
        string = "黑化黑灰化肥灰会挥发发灰黑讳为黑灰花会回飞;灰化灰黑化肥会会挥发发黑灰为讳飞花回化为灰"
    }
    

    当然,这只是一些很简单的语音命令,如果要更精确的语音识别,肯定需要非常精准的分词算法来支持。
    那么这样一个山寨的应用内Siri 就算完成了。

    相关文章

      网友评论

        本文标题:山寨一个Siri

        本文链接:https://www.haomeiwen.com/subject/nczrvttx.html