美文网首页
越狱开发 app录音+自动转文字

越狱开发 app录音+自动转文字

作者: pockyzhang | 来源:发表于2016-07-26 15:39 被阅读86次

    之前做过一段准备,

    http://www.jianshu.com/writer#/notebooks/1255467/notes/3750466

    做的app也是完全基于大狗神的代码和路数。

    实现思路:
    1、实现电话录音
    2、可能需要做一些转码工作
    3、用包含讯飞的app去识别音频

    实现过程
    1、编译安装tweak 此处无话
    2、转码工作。tweak中把caf转为m4a,一开始的思路是把m4a转为wav。
    反正我不懂这些东西,就使劲google,但是依然没找到,尤其是录音文件是双声道的,变为单声道完全没想法。现在想来,有ffmpeg应该不是难事。
    后来牛逼了,想到把caf转为wav。
    问题出现 :app读不到/var/mobile/Media/DCIM路径。
    解决办法:安装到用户应用目录下的是读不到的,果断安装到系统目录 下/Applications
    问题出现:macports完全没法更新。用brew安装了dpkg,打包的deb没法安装。
    解决办法:百度之。另外装了一个什么东西去/opt/theos/bin 下面,用的时候写死。

    这个时候好牛逼的,已经能识别了。结果换一个音频就歇比了。于是各种想办法。想到了 剪切音频。只留下验证码的部分。一顿折腾,还是用大狗神的方法,ffmpeg搞。于是学习app怎么调用系统命令。 于是又学习了app获取root权限。。。然后!!终于都弄出来了,还是不行。

    看到可以使用热词。现在就想上传1w个热词看他行不行。 讯飞只支持2k个。我要想办法利用起来。 就是这样。

    在讯飞群里混了几天,尝试把数字识别出来。学到了语法识别。但是还是不准确的。折腾来折腾去,累得要死。

    下载了搜狗语音识别的demo,oshit framework里面的链接文件都失效了,不知道他们怎么搞的。一找头文件,也还是有识别语音流的。调用之前测试的音频,牛逼啊,数字完美呈现。赶紧换一个试试,就不行拉。。哎呀。放弃了。

    总结一下吧,tweak这一部分,我是什么都没学到。那些东西我也学不来。app部分好像也没啥,就是学了个调用系统命令,app获得root权限。讯飞的人说了,他们是基于人声音进行识别的,机器合成的不好弄。阿西吧。

    相关文章

      网友评论

          本文标题:越狱开发 app录音+自动转文字

          本文链接:https://www.haomeiwen.com/subject/meinjttx.html