美文网首页
python、ocr、tts、音视频处理

python、ocr、tts、音视频处理

作者: 上山走18398 | 来源:发表于2019-07-09 07:13 被阅读0次

    import cv2
    import pytesseract
    opencv-python3 IDE需要更新到最新
    OCR引擎为tesseract
    依赖:

    1. Tesseract,下载并安装tesseract-ocr软件,并配置环境变量
    2. pytesseract
    3. 下载opencv 从python库中 导出cv2.pyd到lib\site-packages,还需加载numpy库
    自动化思路

    目的:

    1. 线上问题,事故发生期间的视频影像丢失
    2. 为了排查和定位问题,需要对视频是否丢帧,丢失率等进行校验,
    3. 但由于视频时间长,采用人为校验耗时耗力

    解决方案:

    1. 采用自动化check机制,判断视频是否有丢帧和漏秒,统计丢失率,并且丰富测试手段
    2. 采用cv2技术截取视频每一帧,再利用ocr技术提取图片时间戳,由上一视频结尾和下一视频开始时间戳来判断是否有漏秒和丢帧,并且统计准确率,丢失率,丢失秒数,每两帧之间相差毫秒级
      坑:
      图片识别度不高,需要加强训练集数据

    OCR(Optical Character Recognition)光学文字识别
    Tesseract是目前公认最优秀,最精确的开源OCR系统库

    音视频常见问题:https://blog.csdn.net/weixin_34112030/article/details/89987478

    
    音频
    from mutagen.mp3 import MP3
    
    audio = MP3(image_path + filename)
    duration =audio.info.length
    int(math.floor(duration))   
    

    TTS

    tts(text to speech),即文本到语音,是人机对话的一部分,让机器说话
    关键技术:语音合成(SpeechSynthesis)
    常用工具:
    语音合成助手,讯飞有声app
    各大市场平台api,身份鉴权,调用次数,收费项目

    ASR
    语音转文本
    常用工具:讯飞听见app,讯飞

    参考链接:https://blog.csdn.net/jclian91/article/details/80628188
    pytesseract是Tesseract关于python的接口
    图片处理模块pillow
    https://blog.csdn.net/sylsjane/article/details/83751297 样本训练方法
    https://segmentfault.com/a/1190000012861561?utm_source=tag-newest 百度api每日有限额,还有其他ocr软件api

    相关文章

      网友评论

          本文标题:python、ocr、tts、音视频处理

          本文链接:https://www.haomeiwen.com/subject/bfctkctx.html