基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路

作者: 安静的书桌 | 来源:发表于2018-04-29 20:26 被阅读20次

基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路
11G101-3图集-正版影印版-免费下载.pdf 免费下载
《机器学习导论.pdf》PDF高清完整版-免费下载
《机器学习实战：基于Scikit-Learn和TensorFlo
8.25兄弟会
《Python编程入门(第3版)》PDF 免费下载|百度云盘|p
前端vue实现HTML转pdf下载，目前不兼容IE
基于百度AI接口的微信小程序-人脸搜索
《深度学习入门：基于Python的理论与实现》高清中文版PDF+
《机器学习_周志华》PDF高清完整版-免费下载

今天实现了“让机器朗读影印版PDF”的功能。

有技术含量的地方用的都是开源库或百度云免费接口——我的工作只是把它们粘合起来。

简单说是三步

1.PDF转图片们

2.逐个图片识别成文字，然后合并成整个文本

3.文本逐段生成MP3，然后合并成整个MP3

第一步，PDF转图片

Java语言的icepdf库和pdffox库都能实现这一目的，其他语言也有相应的库。

-->这一步的输入：PDF文件

-->这一步可以输出：图片文件夹

第二步，图片识别成文字

使用百度云提供的文字识别接口，逐张图片识别，最后合并成整个文本。

-->这一步的输入：图片文件夹

-->这一步可以输出：TXT文件

第三步，文字生成MP3

使用百度云提供的语音合成接口，因为接口有1024字节限制，所以要把整个文本切成小段，生成N个MP3文件，再合并成整个MP3。

-->这一步的输入：TXT文件

-->这一步可以输出：MP3文件

至此影印版的PDF就转换成为可以听的MP3文件了。

顺便还可以用百度云提供的自然语言接口获得文章分类、文章标签等信息。

OCR识别准确度毕竟有限，可以考虑把识别出的TXT进行手工校订。

当然，你也可以把图片或TXT作为输入源。

输入图片则逻辑从第二步开始，输入TXT则逻辑直接执行第三步。

毕竟影印版PDF常涉及版权问题，建议没别的办法时才用这方案。

网友评论

本文标题：基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路

本文链接：https://www.haomeiwen.com/subject/khdalftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路

相关文章