美文网首页
PDF文本化处理-工具入门 - 草稿

PDF文本化处理-工具入门 - 草稿

作者: 北城暖风 | 来源:发表于2019-09-27 07:55 被阅读0次

    由于每份PDF文档的特殊性,涉及到转换后的文本质量问题,本文较适用于百页内文档编辑,不一定适用于超过百页的批量转文本处理,望诸位知悉。

    对于PDF转换Word会乱码,大概率与PDF文件中包含多种字体有关,多种字体对应了多种字体编码,而在个人电脑中的字体并不能涵盖PDF文件包含的字体。暂时还没找到有效解决办法。

    本文只对工具处理质量进行探讨,取决硬件原因,处理速度不讨论,文中主要为图片表达。


    使用工具

    ABBYYFineReader 12 Portable、PDFelementPro、AdobeAcrobat XI Pro

    如有需要,可在文末下载链接下载。

    演示用三种文档:普通扫描版、高清扫描版(文件包含多种字体)和文字版(即非扫描版)。

    文档素质一览

    普通扫描版 高清扫描版 文字版

    工具特点

    ABBYY FineReader 和 PDFelement Pro 的OCR识别功能比 Adobe Acrobat XI Pro强很多,ABB的辅助编辑功能更强大,可手动辅助OCR分析区域格式等;而PDFelement 比较简洁,但编辑起来不太自由;而Adobe Acrobat XI Pro用起来就更简单了,比较像是一键操作。

    界面及特点一览

    ABBYYFineReader 12 Portable界面

    ABBYY界面


    ABBYY工具


    ABBYY输出可选

    PDFelementPro界面


    PDFelementPro 界面


    PDFelementPro识别可选

    AdobeAcrobat XI Pro界面


    AdobeAcrobat XI Pro界面


    AdobeAcrobat XI Pro工具栏

    简单对比

    (因为工具扫描结果确定,这里只选择导出Word格式文档。需要注意的是,使用PDFelement需要先OCR识别,才能有效保存转换的Word文档)

    1.直接导出比较

    普通扫描版

    ABBY  普通扫描版 PDFelement  普通扫描版 AdobeAcrobat XI Pro  普通扫描版

    PDFelementPro 优于ABBYYFineReader ,AdobeAcrobat XI Pro质量捉急。


    高清扫描版


    ABBYY  高清扫描版


    PDFelement  高清扫描版


    AdobeAcrobat XI Pro  高清扫描版

    同样的,PDFelementPro 优于ABBYYFineReader ,AdobeAcrobat XI Pro质量堪忧。


    文字版


    ABBYY  文字版


    PDFelement  文字版


    ABBYY 精确输出 文字版


    AdobeAcrobat XI Pro  文字版

    对于非扫描PDF文档,AdobeAcrobat XI Pro 表现最佳,PDFelementPro还好,ABBYYFineReader 对于格式把控不是太好(在精确输出后效果则优于PDFelement)。


    简单对比发现,PDFelementPro、ABBYYFineReader 相比较AdobeAcrobat XI Pro表现更优秀,页数较少情况下推荐PDFelementPro,ABBYYFineReader的更能强大,但工作区域使用局限。

    输出结果主要还是取决于PDF文件素质。我在使用时在PDFelement 中提取单页文件编辑,有效保证了准确率。对于短时间内高效转换,目前尚有难度。

    值得一提的是,对于普通文档中的水印AdobeAcrobat XI Pro可直接删除的,PDFelementPro的删水印功能并不能有效去除。

    之前也试过SmallPDF 浏览器插件,由于过程不可视化,对于简单几页的文档尚可,但大多数文档也是无能为力的。

    相关文章

      网友评论

          本文标题:PDF文本化处理-工具入门 - 草稿

          本文链接:https://www.haomeiwen.com/subject/zdsmuctx.html