美文网首页
[日更挑战-第十弹]python-网页保存为pdf

[日更挑战-第十弹]python-网页保存为pdf

作者: 小明阿婆 | 来源:发表于2020-05-25 23:06 被阅读0次



    今天用到是python的一个第三方库: pdfkit

    pdfkit 是一个十分强大的第三方库,只需要把网页的url(需要登录或其他特殊方式才能访问的除外)传入,仅靠它自己就能将网页保存为pdf。当然,pdfkit 库也支持文件和源码的传入,同样能将获取到的保存为pdf。

    使用工具:pdfkit



    环境准备:


    1. 搭建python开发环境
    2. 在cmd下运行下面的命令
    pip install pdfkit
    
    1. 安装 wkhtmltopdf第三方安装包,安装时注意保存安装地址。

    源码讲解环节


    好的,下面就是喜闻乐见的源码讲解环节了(´◔౪◔)

    
    import requests
    import pdfkit
    
    # 直接访问url
    
    # 一篇新浪博客的url
    url = 'http://blog.sina.com.cn/s/blog_4b0f52990102z24g.html'
    # 这里指定一下wkhtmltopdf的路径,这就是我为啥在前面让记住这个路径
    confg = pdfkit.configuration(wkhtmltopdf=r'F:\13-wkhtmltopdf\wkhtmltopdf\bin\wkhtmltopdf.exe')
    
    pdfkit.from_url(url, 'test1.pdf', configuration=confg)
    
    
    
    # 用requests爬取到的网页代码生成pdf
    
    header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
    r = requests.get(url, headers=header)
    
    # 爬取中文时为乱码,需要添加
    r.encoding = 'utf-8'
    r = r.text
    with open('index.html', 'w', encoding='utf-8')as f:
        f.write(r)
        print('源码保存完毕')
    
    print('开始从源码生成pdf文件')
    pdfkit.from_string(r, 'test2.pdf', configuration=confg)
    
    print('开始从文件源代码生成pdf文件')
    pdfkit.from_file("index.html", 'test3.pdf', configuration=confg)
    
    
    
    效果展示



    那么本次的分享就在这里了,喜欢的话麻烦点赞关注一下
    不喜欢的话可以去看下小编的其他文章,肯定有喜欢的
    都不喜欢的话可以点个关注,万一以后有喜欢的呢(๑•̀ㅂ•́)و✧



    相关文章

      网友评论

          本文标题:[日更挑战-第十弹]python-网页保存为pdf

          本文链接:https://www.haomeiwen.com/subject/agqpahtx.html