美文网首页python源码大全码农的世界
Python 操作PDF库介绍之PDFMiner

Python 操作PDF库介绍之PDFMiner

作者: iCloudEnd | 来源:发表于2019-02-24 12:37 被阅读5次

    Python 操作PDF库介绍之PDFMiner

    介绍

    PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。
    PDFMiner允许人们获取页面中文本的确切位置,以及字体或线条等其他信息。
    它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于除文本分析之外的其他目的。

    特点

    • 完全用Python编写。 (适用于2.4或更高版本)
    • 解析,分析和转换PDF文档。
    • PDF-1.7规范支持。 (好吧,差不多)
    • CJK语言和垂直编写脚本支持。
    • 各种字体类型(Type1,TrueType,Type3和CID)支持。
    • 基本加密(RC4)支持。
    • PDF到HTML转换(使用示例转换器Web应用程序)。
    • 大纲(TOC)提取。
    • 标记内容提取。
    • 通过对文本块进行分组来重建原始布局

    安装

    github:
    https://github.com/euske/pdfminer/

    使用

    pdf2txt.py samples/simple1.pdf
    
    pyd2txt

    相关文章

      网友评论

        本文标题:Python 操作PDF库介绍之PDFMiner

        本文链接:https://www.haomeiwen.com/subject/afwvyqtx.html