[日更挑战-第十弹]python-网页保存为pdf

作者: 小明阿婆 | 来源:发表于2020-05-25 23:06 被阅读0次

[日更挑战-第十弹]python-网页保存为pdf
浏览器使用技巧汇总
网页保存为pdf
[日更挑战-第十二弹]python-快速排序算法
生活中的python---快速将网页转为PDF
不知道怎么回事，在简书写的私密文章，有时发布出来，有的段落竟被打
脚本批量修改文件名、Mac虚拟打印机
[日更挑战-第二弹]python-爬虫初战
Chrome保存整个网页为图片、PDF
Jupyter Notebook 导出pdf的解决方法

今天用到是python的一个第三方库: pdfkit

pdfkit 是一个十分强大的第三方库，只需要把网页的url(需要登录或其他特殊方式才能访问的除外)传入，仅靠它自己就能将网页保存为pdf。当然，pdfkit 库也支持文件和源码的传入，同样能将获取到的保存为pdf。

使用工具：pdfkit

环境准备：

搭建python开发环境
在cmd下运行下面的命令

pip install pdfkit

安装 wkhtmltopdf，第三方安装包，安装时注意保存安装地址。

源码讲解环节

好的，下面就是喜闻乐见的源码讲解环节了（´◔౪◔）


import requests
import pdfkit

# 直接访问url

# 一篇新浪博客的url
url = 'http://blog.sina.com.cn/s/blog_4b0f52990102z24g.html'
# 这里指定一下wkhtmltopdf的路径，这就是我为啥在前面让记住这个路径
confg = pdfkit.configuration(wkhtmltopdf=r'F:\13-wkhtmltopdf\wkhtmltopdf\bin\wkhtmltopdf.exe')

pdfkit.from_url(url, 'test1.pdf', configuration=confg)



# 用requests爬取到的网页代码生成pdf

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
r = requests.get(url, headers=header)

# 爬取中文时为乱码，需要添加
r.encoding = 'utf-8'
r = r.text
with open('index.html', 'w', encoding='utf-8')as f:
    f.write(r)
    print('源码保存完毕')

print('开始从源码生成pdf文件')
pdfkit.from_string(r, 'test2.pdf', configuration=confg)

print('开始从文件源代码生成pdf文件')
pdfkit.from_file("index.html", 'test3.pdf', configuration=confg)

效果展示

那么本次的分享就在这里了，喜欢的话麻烦点赞关注一下
不喜欢的话可以去看下小编的其他文章，肯定有喜欢的
都不喜欢的话可以点个关注，万一以后有喜欢的呢(๑•̀ㅂ•́)و✧

网友评论

本文标题：[日更挑战-第十弹]python-网页保存为pdf

本文链接：https://www.haomeiwen.com/subject/agqpahtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[日更挑战-第十弹]python-网页保存为pdf

使用工具：pdfkit

环境准备：

源码讲解环节

效果展示

相关文章

[日更挑战-第十弹]python-网页保存为pdf

浏览器使用技巧汇总

网页保存为pdf

[日更挑战-第十二弹]python-快速排序算法

生活中的python---快速将网页转为PDF

不知道怎么回事，在简书写的私密文章，有时发布出来，有的段落竟被打

脚本批量修改文件名、Mac虚拟打印机

[日更挑战-第二弹]python-爬虫初战

Chrome保存整个网页为图片、PDF

Jupyter Notebook 导出pdf的解决方法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读