美文网首页python源码大全码农的世界
Python 操作PDF库介绍之PDFMiner

Python 操作PDF库介绍之PDFMiner

作者: iCloudEnd | 来源:发表于2019-02-24 12:37 被阅读5次

Python 操作PDF库介绍之PDFMiner

介绍

PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。
PDFMiner允许人们获取页面中文本的确切位置,以及字体或线条等其他信息。
它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于除文本分析之外的其他目的。

特点

  • 完全用Python编写。 (适用于2.4或更高版本)
  • 解析,分析和转换PDF文档。
  • PDF-1.7规范支持。 (好吧,差不多)
  • CJK语言和垂直编写脚本支持。
  • 各种字体类型(Type1,TrueType,Type3和CID)支持。
  • 基本加密(RC4)支持。
  • PDF到HTML转换(使用示例转换器Web应用程序)。
  • 大纲(TOC)提取。
  • 标记内容提取。
  • 通过对文本块进行分组来重建原始布局

安装

github:
https://github.com/euske/pdfminer/

使用

pdf2txt.py samples/simple1.pdf
pyd2txt

相关文章

网友评论

    本文标题:Python 操作PDF库介绍之PDFMiner

    本文链接:https://www.haomeiwen.com/subject/afwvyqtx.html