提取pdf中可能的图片

作者: 饭桶2018 | 来源:发表于2019-06-03 10:19 被阅读0次

提取pdf中可能的图片
PDF编辑方法之如何提取PDF页面
PDF图片提取
PDF编辑技巧：怎么提取PDF文件中的页面
如何快速从图片中提取文字？
如何将pdf文件转换成html?pdf转html方法介绍
❖ 利用命令行工具pdfimages来提取PDF中的图片
Spire.Cloud.PDF 添加及提取PDF图片
个人永久性免费-Excel催化剂功能第89波-批量多图片转PDF
晓成小谈PDF

import re

input_pdf = 'Ch05-2006.pdf'
output_base = input_pdf.replace('-2006','').split('.')[0]

with open(input_pdf,'rb') as f:
    pdf = f.read()

jpg_pattern = re.compile(rb'\xff\xd8.*?\xff\xd9\x0a',re.DOTALL)
png_pattern = re.compile(rb'\x89\x50\x4e\x47.*?\xae\x42\x60\x82',re.DOTALL)
jpgs = jpg_pattern.findall(pdf)
pngs = png_pattern.findall(pdf)

jpgn = jpgs.__len__()
pngn = pngs.__len__()
print('Find {} jpg and {} png in {}'.format(jpgn,pngn,input_pdf))

if jpgn:
    for i,jpg in enumerate(jpgs):
        output_jpg = '{}-{}.jpg'.format(output_base,str(i + 1).zfill(3))
        print('  Export {}'.format(output_jpg))
        with open(output_jpg,'wb') as f:
            f.write(jpg)
if pngn:
    for i,pngn in enumerate(pngn):
        output_png = '{}-{}.png'.format(output_base,str(i + 1).zfill(3))
        print('  Export {}'.format(output_png))
        with open(output_jpg,'wb') as f:
            f.write(jpg)

提取pdf中可能的图片
PDF编辑方法之如何提取PDF页面
PDF文件相信大家都使用过，但怎么提取PDF文档中的页面呢？有时我们可能需要提取PDF文档中的一页或者几页，来弄成...
PDF图片提取
本文作者：王碧琪文字编辑：戴雯技术总编：张邯之前我们使用pymupdf提取了PDF文档中的文本信息，...
PDF编辑技巧：怎么提取PDF文件中的页面
怎么提取PDF文件中的页面？有些时候我们需要提取PDF文件中的页面，不知道如何操作。想要提取PDF文件中的页面就可...
如何快速从图片中提取文字？
如何从图片中提取文字在学习和工作中，我们经常会遇到如何从图片、网页或PDF中快速提取文字的困惑？今天在这里将为...
如何将pdf文件转换成html?pdf转html方法介绍
有时为了工作需要我们要将pdf转换成html网页文件，便于嵌入网页中且可以提取PDF中的图片，那么，如何将PDF转...
❖ 利用命令行工具pdfimages来提取PDF中的图片
pdfimages是一个非常简便好用的PDF图片提取工具，很简单的一个命令就可以提取出PDF指定页面里的所有图片。...
Spire.Cloud.PDF 添加及提取PDF图片
本文将介绍如何使用Spire.Cloud.PDF API提供的PdfImageApi接口来给PDF添加图片及提取文...
个人永久性免费-Excel催化剂功能第89波-批量多图片转PDF
前一篇展示了从PDF中提取到有用信息如图片、文本、表格等功能，部分人可能对自己手中的转PDF格式的保护性有所顾虑，...
晓成小谈PDF
小谈PDF：说起pdf ，读起来方便编辑修改却较麻烦？那么如何快速提取PDF里的文字（同理：如何快捷将图片里的文字...