美文网首页
python读取电子发票PDF文本

python读取电子发票PDF文本

作者: 昨日雨疏风骤 | 来源:发表于2022-02-21 13:52 被阅读0次

使用pdfminer.six进行电子发票的文本读取。(基于Python 3.7)

首先, 安装 pdfminer.six

pip install pdfminer.six=20201018

安装成功之后,参考以下代码进行文本读取:

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def readPdf2(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    device = TextConverter(rsrcmgr,retstr,codec='utf-8',laparams=LAParams()) 
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    with open(path,'rb') as fp:
        for page in PDFPage.get_pages(fp,set()):
            interpreter.process_page(page)
        text = retstr.getvalue()

    device.close()
    retstr.close()
    return text

text = readPdf2(r"C:\test.pdf")
print(text)

相关文章

  • python读取电子发票PDF文本

    使用pdfminer.six进行电子发票的文本读取。(基于Python 3.7) 首先, 安装 pdfminer....

  • python 实现ETC电子发票管理系统

    总任务 针对“发票样例”中的以压缩文件形式存放的发票文件通过python 解压成单独的pdf文件格式的电子发票文件...

  • C#/Java 动态生成电子发票

    电子发票是电商时代的产物,PDF发票是最常见的电子发票之一。在这篇文章中,我将给大家分享一个免费的动态生成PDF电...

  • python 读取pdf并提取发票信息

    (1)读取pdf文件并提取信息 参考博客:https://www.jianshu.com/p/65eae86116...

  • 007第130篇:工作小tips

    一、处理没有盖章的电子发票 公司sse系统要求上传的pdf电子发票必须要带章的,但是我收到发票并没有,咨询对方,说...

  • 下载的电子发票打不开?ofd电子文档你可以这样做

    如今随着线上支付的普及,发票也有原来的纸质改为电子版,可在我们刚适应PDF电子发票的使用后,发票又改为专用的OFD...

  • 2023-01-06

    辨别不同类型的电子发票 1、使用税控盘开具的电子普通发票 旧版看货物名称栏,有发票章,是PDF格式的 查询真伪:电...

  • Python读写文本

    Python 以只读方式打开一段文本 read方法读取整个文本,返回一个string readlines读取文本的...

  • 关于使用pdfjs预览PDF文件

    【背景】 昨天财务的同学过来核对新的退款流程,顺便提了下之前开发的电子发票的项目,说上传电子发票PDF文件后,打开...

  • 十秒教你如何将PDF发票合并打印

    每次面对一大堆的PDF电子发票,头就疼。由于是PDF格式的,也不知道怎么进行整理。眼看着一大堆的PDF发票,占满了...

网友评论

      本文标题:python读取电子发票PDF文本

      本文链接:https://www.haomeiwen.com/subject/dgobcrtx.html