import pdfplumber
import docx
path="/Users/ningbo/Desktop/周期.pdf"
pdf=pdfplumber.open(path)
doc=docx.Document()
for page in pdf.pages:
textData=page.extract_text()
doc.add_paragraph(textData)
doc.add_page_break()
doc.save("/Users/ningbo/Desktop/周期.docx")
以前经常为pdf转换为word版本费尽心机,有时不得不忍痛付费。但效果仍然不好,今天学习了pdf文档读取,只需要短短的几行代码就瞬间完成了pdf转换为word ,简直不要太酸爽。
1.读取pdf文档。
在Python中,想要处理PDF的文本和表格,我们可以使用pdfplumber模块。
pdfplumber模块可以获取PDF文档中的具体信息,包括字符、矩形框、线等,还可以抽取文本和表格。
pdfplumber不是一个内置模块,所以在使用前要先通过代码
pip install pdfplumber进行安装。
如果在自己电脑上安装不上或安装缓慢,可在命令后添加
pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple/ 进行加速
接下来,我们需要将文件夹中的所有PDF文档读取出来。
我们可以将PDF文件的路径作为参数传入pdfplumber.open()函数来读取PDF文件。
import pdfplumber
import docx
path="/Users/ningbo/Desktop/周期.pdf"
pdf=pdfplumber.open(path)。
2.提取pdf文档。
首先我们要使用for循环遍历.pages属性,逐个获取PDF文档中的每一页对象。
然后通过每一页的对象使用extract_text()函数即可提取每一页面中的文本
import pdfplumber
import docx
path="/Users/ningbo/Desktop/周期.pdf"
pdf=pdfplumber.open(path)。
for page in pdf.pages:
textData=page.extract_text()
3.创建word文档并添加段落
想要创建一个新的Word文档,我们需要导入Python-docx模块。
使用docx.Document()函数,不传入任何参数,即可创建一个新的Word文档对象。接着使用add_paragraph()函数可以向文档中添加段落,参数是添加的内容字符串。
添加完成后,再使用save()将文档保存到指定路径。
import pdfplumber
import docx
path="/Users/ningbo/Desktop/周期.pdf"
pdf=pdfplumber.open(path)
doc=docx.Document()
for page in pdf.pages:
textData=page.extract_text()
doc.add_paragraph(textData)
doc.add_page_break()
doc.save("/Users/ningbo/Desktop/周期.docx")
初次尝到了python使用的甜头,可谓惊喜连连,成绩满满,大半年来学习的python终究有了一丝丝成绩。虽然还未进行批量转换,但对python的高效率已肃然起敬。
虽然,word文档的排版还不完美,比如,没有开头没有空四行等等,但终于迈出了应用的第一步。先完成再完美嘛。
笑来老师说,学习最好的方法只不过是重复重复再重复。
看来,老师诚不欺我耶。
我应该大胆尝试,灵活应用,把工作生活中遇到的问题尝试用python解决。学习的初级是模仿,中级是应用,高级便是创造了。期待自己像习武之人一样,从一招一式中独创出自己的剑法。
网友评论