美文网首页
基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路

基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路

作者: 安静的书桌 | 来源:发表于2018-04-29 20:26 被阅读20次

    今天实现了“让机器朗读影印版PDF”的功能。

    有技术含量的地方用的都是开源库或百度云免费接口——我的工作只是把它们粘合起来。

    简单说是三步

    1.PDF转图片们

    2.逐个图片识别成文字,然后合并成整个文本

    3.文本逐段生成MP3,然后合并成整个MP3

    第一步,PDF转图片

    Java语言的icepdf库和pdffox库都能实现这一目的,其他语言也有相应的库。

    -->这一步的输入:PDF文件

    -->这一步可以输出:图片文件夹

    第二步,图片识别成文字

    使用百度云提供的文字识别接口,逐张图片识别,最后合并成整个文本。

    -->这一步的输入:图片文件夹

    -->这一步可以输出:TXT文件

    第三步,文字生成MP3

    使用百度云提供的语音合成接口,因为接口有1024字节限制,所以要把整个文本切成小段,生成N个MP3文件,再合并成整个MP3。

    -->这一步的输入:TXT文件

    -->这一步可以输出:MP3文件

    至此影印版的PDF就转换成为可以听的MP3文件了。

    顺便还可以用百度云提供的自然语言接口获得文章分类、文章标签等信息。

    OCR识别准确度毕竟有限,可以考虑把识别出的TXT进行手工校订。

    当然,你也可以把图片或TXT作为输入源。

    输入图片则逻辑从第二步开始,输入TXT则逻辑直接执行第三步。

    毕竟影印版PDF常涉及版权问题,建议没别的办法时才用这方案。

    相关文章

      网友评论

          本文标题:基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路

          本文链接:https://www.haomeiwen.com/subject/khdalftx.html