Python提取多个pdf首页合并输出

作者: 生信交流平台 | 来源:发表于2021-02-07 09:59 被阅读0次

python读paper
Python提取多个pdf首页合并输出
使用Python编辑PDF
python使用PyPDF2合并多个PDF文件时报错
如何把pdf拆分合并？明白告诉你！
Task04：Python与pdf
Tools:命令行pdf编辑器
用Python开发PDF编辑器，实现PDF页面提取，页面合并与替
Python-139 合并PDFMerge PDF文件并在该文件
Pandoc简单运用实例

前面小编给大家分享过R如何提取，合并pdf文件，今天在给大家分享一下如何用python来实现。

比如说我这里有10篇ceRNA相关的文献，

我想先把他们的首页，abstract先打印出来看看，然后在决定哪些文章要精读。那么最简单的方法就是先把这10篇文献的首页提取合并到一个pdf文件中，然后打印，这样最省事，否者我还要打开这10个pdf文件，每一个都打印一遍。

来看看如何用python代码来实现

首先我们需要安装一个处理pdf文件的python包PyPDF2，在你的控制台输入如下命令

pip install PyPDF2

然后我们开始干活

import PyPDF2, os

# import sys
#
# if not sys.warnoptions:
#     import warnings
#     warnings.simplefilter("ignore")

#输入包含所有pdf文件的文件夹
dir = "c:/ceRNA"
#改变路径到该文件夹
os.chdir(dir)
#创建一个PdfFileWriter对象，后面用来保存提取的首页
pdfWriter = PyPDF2.PdfFileWriter()

#遍历文件夹中的每一个文件
for file in os.listdir(dir):
    #如果以.pdf为后缀
    if file.endswith(".pdf"):
        #打开这个pdf文件，以二进制的方式读取
        pdfFileObj = open(file, 'rb')
        #创建一个PdfFileReader对象，来读取pdf内容
        pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
        #获取首页
        pageObj = pdfReader.getPage(0)
        #添加到pdfWriter中
        pdfWriter.addPage(pageObj)

#新建一个pdf文件，用来保存所有的首页，以二进制的方式来写
pdfOutput = open('all_first_page.pdf', 'wb')
#将pdfWriter的内容写到文件中
pdfWriter.write(pdfOutput)
#关闭输出文件
pdfOutput.close()

运行完代码，1秒钟之后你就会在同一个文件夹看到

这个pdf文件里面就包括这10篇文献的首页

大功告成，赶紧去打印吧！

注意如果遇到如下报错信息，请把下面这几行代码前面的注释删掉

PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]

# import sys
#
# if not sys.warnoptions:
#     import warnings
#     warnings.simplefilter("ignore")

参考资料：R如何提取，合并pdf文件

Python提取多个pdf首页合并输出

python读paper
前面跟大家简单介绍过Python提取多个pdf首页合并输出[https://link.zhihu.com/?tar...
Python提取多个pdf首页合并输出
前面小编给大家分享过R如何提取，合并pdf文件[https://link.zhihu.com/?target=ht...
使用Python编辑PDF
这篇文章介绍使用Python处理PDF文件的编辑任务。分为几个不同的部分：加密PDF，提取PDF的文字内容，合并P...
python使用PyPDF2合并多个PDF文件时报错
python使用PyPDF2合并多个PDF文件时报错，网上搜了很多方法，有大神说是PyPDF2自己的问题，在输出中...
如何把pdf拆分合并？明白告诉你！
如何把pdf拆分合并？拆分pdf文件，一是指将pdf文件拆分成多个文件，也就是提取文档中的部分页面，做为新文...
Task04：Python与pdf
python操作Pdf是办公自动化中很常用的，初级的pdf自动化包括pdf文档的拆分、合并、提取等操作，更高级的还...
Tools:命令行pdf编辑器
工具1：linux自带的pdfunite 合并多个pdf文件，最后一个是合并后输出的文件的名称工具2：pdftk
用Python开发PDF编辑器，实现PDF页面提取，页面合并与替
大多数PDF软件阅读服务是免费的，但是如果你想编辑一个PDF文档，比如从一个PDF文档中提取指定页面，合并多个PD...
Python-139 合并PDFMerge PDF文件并在该文件
合并多个PDF文件并在该文件夹下面输出为合并的文件夹：只需要在最后一段改一下目前pdf所在的路径即可！
Pandoc简单运用实例
这里介绍通过Pandoc这个工具，合并多个Markdown文件，输出到html、pdf等。所有例子的运行环境，均在...

Python提取多个pdf首页合并输出

相关文章

python读paper

Python提取多个pdf首页合并输出

使用Python编辑PDF

python使用PyPDF2合并多个PDF文件时报错

如何把pdf拆分合并？明白告诉你！

Task04：Python与pdf

Tools:命令行pdf编辑器

用Python开发PDF编辑器，实现PDF页面提取，页面合并与替

Python-139 合并PDFMerge PDF文件并在该文件

Pandoc简单运用实例

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

重点关注

python

Python

office

python