今天实现了“让机器朗读影印版PDF”的功能。
有技术含量的地方用的都是开源库或百度云免费接口——我的工作只是把它们粘合起来。
简单说是三步
1.PDF转图片们
2.逐个图片识别成文字,然后合并成整个文本
3.文本逐段生成MP3,然后合并成整个MP3
第一步,PDF转图片
Java语言的icepdf库和pdffox库都能实现这一目的,其他语言也有相应的库。
-->这一步的输入:PDF文件
-->这一步可以输出:图片文件夹
第二步,图片识别成文字
使用百度云提供的文字识别接口,逐张图片识别,最后合并成整个文本。
-->这一步的输入:图片文件夹
-->这一步可以输出:TXT文件
第三步,文字生成MP3
使用百度云提供的语音合成接口,因为接口有1024字节限制,所以要把整个文本切成小段,生成N个MP3文件,再合并成整个MP3。
-->这一步的输入:TXT文件
-->这一步可以输出:MP3文件
至此影印版的PDF就转换成为可以听的MP3文件了。
顺便还可以用百度云提供的自然语言接口获得文章分类、文章标签等信息。
OCR识别准确度毕竟有限,可以考虑把识别出的TXT进行手工校订。
当然,你也可以把图片或TXT作为输入源。
输入图片则逻辑从第二步开始,输入TXT则逻辑直接执行第三步。
毕竟影印版PDF常涉及版权问题,建议没别的办法时才用这方案。
网友评论