扫描版PDF文档转文本方法

作者: CharlesZhangCh | 来源:发表于2019-02-02 14:54 被阅读3次

很多pdf文档是扫描版的，也就是图片，无法提取文字，使用很不方便。通过结合以下两个利器可以很方便的把pdf转为文本。

可以通过XpdfReader工具把pdf文档转为一组图片。
假设要把1.pdf转为一组jpg图片，放到test目录下。可以使用以下命令：

pdfimages -j 1.pdf test

使用谷歌的OCR识别工具tesseract把文字提取出来。
把图片1.jpg转为文字保存在1.txt中，可以使用以下命令：

tesseract 1.jpg 1.txt -l chi_sim

后面的参数-l chi_sim表示要转换的文字是中文。

如果想一次转换很多张图片，可以把要转换的图片文件路径写入到一个文本文件中，比如in.txt：

1.jpg
2.jpg
3.jpg
4.jpg
5.jpg
6.jpg

使用以下命令一次性全部转换保存到out.txt中：

tesseract in.txt out.txt -l chi_sim

搞定，收工，如有疑问或建议欢迎留言讨论。

网友评论

本文标题：扫描版PDF文档转文本方法

本文链接：https://www.haomeiwen.com/subject/acpssqtx.html

扫描版PDF文档转文本方法