美文网首页
[日更挑战-第十弹]python-网页保存为pdf

[日更挑战-第十弹]python-网页保存为pdf

作者: 小明阿婆 | 来源:发表于2020-05-25 23:06 被阅读0次



今天用到是python的一个第三方库: pdfkit

pdfkit 是一个十分强大的第三方库,只需要把网页的url(需要登录或其他特殊方式才能访问的除外)传入,仅靠它自己就能将网页保存为pdf。当然,pdfkit 库也支持文件和源码的传入,同样能将获取到的保存为pdf。

使用工具:pdfkit



环境准备:


  1. 搭建python开发环境
  2. 在cmd下运行下面的命令
pip install pdfkit
  1. 安装 wkhtmltopdf第三方安装包,安装时注意保存安装地址。

源码讲解环节


好的,下面就是喜闻乐见的源码讲解环节了(´◔౪◔)


import requests
import pdfkit

# 直接访问url

# 一篇新浪博客的url
url = 'http://blog.sina.com.cn/s/blog_4b0f52990102z24g.html'
# 这里指定一下wkhtmltopdf的路径,这就是我为啥在前面让记住这个路径
confg = pdfkit.configuration(wkhtmltopdf=r'F:\13-wkhtmltopdf\wkhtmltopdf\bin\wkhtmltopdf.exe')

pdfkit.from_url(url, 'test1.pdf', configuration=confg)



# 用requests爬取到的网页代码生成pdf

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
r = requests.get(url, headers=header)

# 爬取中文时为乱码,需要添加
r.encoding = 'utf-8'
r = r.text
with open('index.html', 'w', encoding='utf-8')as f:
    f.write(r)
    print('源码保存完毕')

print('开始从源码生成pdf文件')
pdfkit.from_string(r, 'test2.pdf', configuration=confg)

print('开始从文件源代码生成pdf文件')
pdfkit.from_file("index.html", 'test3.pdf', configuration=confg)


效果展示



那么本次的分享就在这里了,喜欢的话麻烦点赞关注一下
不喜欢的话可以去看下小编的其他文章,肯定有喜欢的
都不喜欢的话可以点个关注,万一以后有喜欢的呢(๑•̀ㅂ•́)و✧



相关文章

网友评论

      本文标题:[日更挑战-第十弹]python-网页保存为pdf

      本文链接:https://www.haomeiwen.com/subject/agqpahtx.html