美文网首页语音识别
TTS离线语音合成的叨逼叨及解决方案

TTS离线语音合成的叨逼叨及解决方案

作者: 叨码 | 来源:发表于2018-03-30 01:28 被阅读43次

    概念

    TTS即TextToSpeech,文本转语言,也就是所谓的语音合成技术。TTS技术对文本文件进行实时转换,转换时间可以秒计算。
    目前国内主流的语音引擎提供商主要为科大讯飞、百度以及云知声。

    前言

    由于项目中涉及到收银金额的播报,主要是用在食堂、大排档这类的嘈杂环境,所以需求上要满足语速快,音量高,队列播放。最初找到网上通过MediaPlayer播放录制好的金额音频文件的方案实现,[参考](https://segmentfault.com/a/1190000011407408/ [代码]:https://github.com/javaexception/VoiceAnnouncements),但播放语速太慢,被直接pass掉。转而考虑第三方的SDK,万万没想到,原本很简单的一个三选一的题,选来选去,成功绕过了正确答案,最终迭代了三次才选到了适合我们场景的答案。下面我总结了基于我们使用场景(各种网络环境)得出的几个优缺点:

    提供商 是否提供离线 是否收费 合成质量 不足
    科大讯飞 不支持有线网,需维护队列
    百度 较好 离线授权易失败,合成失败
    云知声 一般 声音不自然,需维护队列,技术支持不给力

    最后,结合项目复杂的使用场景,选择了云知声的离线TTS,外加维护一个简单的队列,满足了我们的需求。网上有网友提供的一个自己封装的工具(https://blog.csdn.net/fengyuzhengfan/article/details/45053293),封装的不错,拿来就可以用,而且加入了队列维护,但唯一的不足之处,在于声音比较小,即便音量设置成最大值,听起来也不是很响亮,大约60分贝左右,安静环境下没什么问题,但我们得保持90分贝才差不多满足,所以不做改变的话,对我来说也没法使用,考虑到此工具类里的sdk版本比较老了,尝试到云知声官网down了最新的离线包,刚好音量方面做了调整,于是重新封装了一个工具类,加入了队列维护,并做了一些微调,音量达到了85分贝,基本满足了我们需求(其实我们还想更大声一点,目前只能考虑硬件上提升功放)。
    好了,叨叨了太多废话,下面我们上代码:

    package com.ing.tts;
    
    import android.content.Context;
    import android.media.AudioManager;
    
    import com.unisound.client.SpeechConstants;
    import com.unisound.client.SpeechSynthesizer;
    import com.unisound.client.SpeechSynthesizerListener;
    import java.io.IOException;
    import java.util.ArrayList;
    import java.util.List;
    
    
    /**
     * 离线语音
     *
     * @author ing
     * @date 2018/3/27
     */
    public class SpeechUtilOffline {
        public static final String appKey = "_appKey_";//经测试,离线包key和secret可不填真实的。
        public static final String secret = "_secret_";
        private static SpeechUtilOffline instance;
        private SpeechSynthesizer mTTSPlayer;
        private boolean isSpeaking = false;
        private List<SpeechItem> speechList = new ArrayList<>();
        private boolean released = false;
        protected OfflineResource offlineResource;
    
        private SpeechUtilOffline(Context context) {
            init(context);
            released = false;
        }
    
        public static SpeechUtilOffline getInstance(Context context) {
            if (instance == null) {
                instance = new SpeechUtilOffline(context);
            }
            return instance;
        }
    
        /**
         * 初始化引擎
         *
         * @author JPH
         * @date 2015-4-14 下午7:32:58
         */
        private void init(final Context context) {
            try {
                offlineResource = new OfflineResource(context);
            } catch (IOException e) {
                LogUtils.e("offlineResouce failed , error msg : "+e.getMessage());
                e.printStackTrace();
            }
            // 初始化语音合成对象
            mTTSPlayer = new SpeechSynthesizer(context, appKey, secret);
            // 设置本地合成
            mTTSPlayer.setOption(SpeechConstants.TTS_SERVICE_MODE, SpeechConstants.TTS_SERVICE_MODE_LOCAL);
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_VOICE_PITCH, 50);//音调
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_VOICE_SPEED, 52);//语速
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_VOICE_VOLUME, 100);//音量
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_STREAM_TYPE, AudioManager.STREAM_NOTIFICATION);
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_FRONTEND_MODEL_PATH, offlineResource.getModelFilename());
            // 设置后端模型
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_BACKEND_MODEL_PATH, offlineResource.getBackFilename());
            // 设置回调监听
            mTTSPlayer.setTTSListener(new SpeechSynthesizerListener() {
    
                @Override
                public void onEvent(int type) {
                    switch (type) {
                        case SpeechConstants.TTS_EVENT_INIT:
                            // 初始化成功回调
                            LoggerUtils.d("onInitFinish");
                            break;
                        case SpeechConstants.TTS_EVENT_SYNTHESIZER_START:
                            // 开始合成回调
                            LoggerUtils.d("beginSynthesizer");
                            break;
                        case SpeechConstants.TTS_EVENT_SYNTHESIZER_END:
                            // 合成结束回调
                            LoggerUtils.d("endSynthesizer");
                            break;
                        case SpeechConstants.TTS_EVENT_BUFFER_BEGIN:
                            // 开始缓存回调
                            LoggerUtils.d("beginBuffer");
                            break;
                        case SpeechConstants.TTS_EVENT_BUFFER_READY:
                            // 缓存完毕回调
                            break;
                        case SpeechConstants.TTS_EVENT_PLAYING_START:
                            // 开始播放回调
                            LoggerUtils.d("onPlayBegin");
                            break;
                        case SpeechConstants.TTS_EVENT_PLAYING_END:
                            // 播放完成回调
                            break;
                        case SpeechConstants.TTS_EVENT_PAUSE:
                            // 暂停回调
                            LoggerUtils.d("pause");
                            break;
                        case SpeechConstants.TTS_EVENT_RESUME:
                            // 恢复回调
                            LoggerUtils.d("resume");
                            break;
                        case SpeechConstants.TTS_EVENT_STOP:
                            // 停止回调
                            LoggerUtils.d("stop");
                            break;
                        case SpeechConstants.TTS_EVENT_RELEASE:
                            // 释放资源回调
                            LoggerUtils.d("release");
                            break;
                        default:
                            break;
                    }
    
                }
    
                @Override
                public void onError(int type, String errorMSG) {
                    // 语音合成错误回调
                    LoggerUtils.ttsErrorLog("TTS onError __ type : "+ type +" errorMsg : " +errorMSG );
                }
            });
            // 初始化合成引擎
            mTTSPlayer.init("");
    
        }
    
        /**
         * 停止播放
         *
         * @author JPH
         * @date 2015-4-14 下午7:50:35
         */
        public void stop() {
            mTTSPlayer.stop();
        }
    
        /**
         * 播放
         *
         * @author JPH
         * @date 2015-4-14 下午7:29:24
         */
        public void play(String content) {
            playImmediately(content);
        }
    
        public void play(String content, PLAY_MODE playMode) {
            switch (playMode) {
                case QUEUED: {
                    playQueued(content);
                    break;
                }
                case IMMEDIATELY: {
                    playImmediately(content);
                    break;
                }
            }
        }
    
        private void updateSpeech() {
            if (!isSpeaking) {
                if (speechList.size() > 0) {
                    speak(speechList.remove(speechList.size() - 1).content);
                }
            }
        }
    
        private void speak(String content) {
            mTTSPlayer.playText(content);
        }
    
        public void playQueued(String content) {
            speechList.add(new SpeechItem(content, PLAY_MODE.QUEUED));
            updateSpeech();
        }
    
        public void playImmediately(String content) {
            speak(content);
        }
    
        /**
         * 释放资源
         *
         * @author JPH
         * @date 2015-4-14 下午7:27:56
         */
        public void release() {
            // 主动释放离线引擎
            if (released) {
                return;
            }
            if (mTTSPlayer != null) {
                mTTSPlayer.stop();
                mTTSPlayer.release(SpeechConstants.TTS_RELEASE_ENGINE, null);
            }
            instance = null;
            released = true;
        }
    
    
        public enum PLAY_MODE {
            QUEUED,
            IMMEDIATELY
        }
    
        private class SpeechItem {
            public String content;
            public PLAY_MODE playMode;
    
            public SpeechItem(String content, PLAY_MODE mode) {
                this.content = content;
                this.playMode = mode;
            }
        }
    }
    
    

    以上就是我们项目中用到的离线工具类,主要设置:

            mTTSPlayer.setOption(SpeechConstants.TTS_SERVICE_MODE, SpeechConstants.TTS_SERVICE_MODE_LOCAL);//离线模式
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_VOICE_PITCH, 50);//音调 
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_VOICE_SPEED, 52);//语速
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_VOICE_VOLUME, 100);//音量最大
            mTTSPlayer.setOption(SpeechConstants.TTS_KEY_STREAM_TYPE, AudioManager.STREAM_NOTIFICATION);
    

    最后一个设置项TTS_KEY_STREAM_TYPE, sdk里默认是STREAM_MUSIC也就是媒体音量,但经过分贝测试,发现在集中系统音量类型中,通知类的声音是最大的,于是这里就选择设置成了STREAM_NOTIFICATION模式。
    另外,直接下载的sdk,提供的 asserts离线文件拷贝到本地的方法不太好用,这里我改造了一下,也就是OfflineResource.java :

    package com.ing.tts;
    
    import android.content.Context;
    import android.content.res.AssetManager;
    import android.util.Log;
    
    import com.ing.tts.FileUtils;
    
    import java.io.IOException;
    
    import static android.content.ContentValues.TAG;
    
    
    /**
     * 离线语音
     *
     * @author ing
     * @date 2018/3/27
     */
    
    public class OfflineResource {
    
    
        private AssetManager assets;
        private String destPath;
    
        private String backFilename;
        private String modelFilename;
    
        public OfflineResource(Context context) throws IOException {
            this.assets = context.getAssets();
            this.destPath = FileUtils.createTmpDir(context);
            setOfflineVoiceType();
        }
    
        public String getModelFilename() {
            return modelFilename;
        }
    
        public String getBackFilename() {
            return backFilename;
        }
    
        public void setOfflineVoiceType() throws IOException {
            String back = "backend_lzl";
            String model = "frontend_model";
            backFilename = copyAssetsFile(back);
            modelFilename = copyAssetsFile(model);
    
        }
    
    
        private String copyAssetsFile(String sourceFilename) throws IOException {
            String destFilename = destPath + "/" + sourceFilename;
            FileUtils.copyFromAssets(assets, sourceFilename, destFilename, false);
            Log.i(TAG, "Assets to sdcard successed:" + destFilename);
            return destFilename;
        }
    }
    
    

    FileUtils.java :

    /**
         * 创建一个临时目录,用于复制临时文件,如assets目录下的离线资源文件
         * @param context
         * @return
         */
    
        public static String createTmpDir(Context context) {
            String sampleDir = "/ing/tts";//这里改为你的本地路径
            String tmpDir = Environment.getExternalStorageDirectory().toString() + sampleDir;
            if (!FileUtils.makeDir(tmpDir)) {
                tmpDir = context.getExternalFilesDir(sampleDir).getAbsolutePath();
                if (!FileUtils.makeDir(sampleDir)) {
                    throw new RuntimeException("create model resources dir failed :" + tmpDir);
                }
            }
            return tmpDir;
        }
    /**
         * assets文件2 sdcard
         * @param assets
         * @param source
         * @param dest
         * @param isCover
         * @throws IOException
         */
        public static void copyFromAssets(AssetManager assets, String source, String dest, boolean isCover) throws IOException {
            File file = new File(dest);
            if (isCover || (!isCover && !file.exists())) {
                InputStream is = null;
                FileOutputStream fos = null;
                try {
                    is = assets.open(source);
                    String path = dest;
                    fos = new FileOutputStream(path);
                    byte[] buffer = new byte[1024];
                    int size = 0;
                    while ((size = is.read(buffer, 0, 1024)) >= 0) {
                        fos.write(buffer, 0, size);
                    }
                } finally {
                    if (fos != null) {
                        try {
                            fos.close();
                        } finally {
                            if (is != null) {
                                is.close();
                            }
                        }
                    }
                }
            }
        }
    

    然后使用就很简单了,比如:

    SpeechUtilOffline.getInstance(MainActivity.this).play("收款1024元", SpeechUtilOffline.PLAY_MODE.QUEUED);
    

    最后附上源码下载:https://download.csdn.net/download/learner576539763/10316889

    相关文章

      网友评论

      本文标题:TTS离线语音合成的叨逼叨及解决方案

      本文链接:https://www.haomeiwen.com/subject/wbwscftx.html