美文网首页python爬虫python热爱者码农的世界
利用Python爬取在线教程!并把它转为PDF,方便学习!

利用Python爬取在线教程!并把它转为PDF,方便学习!

作者: Python树苗 | 来源:发表于2018-05-19 16:38 被阅读25次

1、网站介绍

之前再搜资料的时候经常会跳转到如下图所示的在线教程:

01.教程样式

包括一些github的项目也纷纷将教程链接指向这个网站。经过一番查找,该网站是一个可以创建、托管和浏览文档的网站,其网址为:https://readthedocs.org 。在上面可以找到很多优质的资源。

该网站虽然提供了下载功能,但是有些教程并没有提供PDF格式文件的下载,如图:

02.下载

该教程只提供了 HTML格式文件的下载,还是不太方便查阅,那就让我们动手将其转成PDF吧!

$ sudo apt-get install wkhtmltopdf # ubuntu

$ sudo yum intsall wkhtmltopdf # centos

3.3 获取章节内容

还是同样的方法定位章节内容:

3.4 保存pdf

3.5 合并pdf

经过上一步,所有章节的pdf都保存下来了,最后我们希望留一个pdf,就需要合并所有pdf并删除单个章节pdf。

本来PyPDF2库中有一个类PdfFileMerger专门用来合并pdf,但是在合并过程中会抛出异常,网上有人也遇到同样的问题,解决办法是修改库源码,本着“不动库源码”的理念,毅然选择了上面这种比较笨的办法,代码还是比较好理解的。

经过以上几个步骤,我们想要的pdf文件已经生成,一起来欣赏一下劳动成果:

06.保存成果

欢迎大家关注我的博客:https://home.cnblogs.com/u/sm123456/ 答疑互动交流尽在博客园

欢迎大家加入千人交流答疑群:125240963

相关文章

  • 利用Python爬取在线教程!并把它转为PDF,方便学习!

    1、网站介绍 之前再搜资料的时候经常会跳转到如下图所示的在线教程: 01.教程样式 包括一些github的项目也纷...

  • 爬取Python教程博客并转成PDF

    爬取Python教程博客并转成PDF 今天我们爬取一下python教程博客并把爬取内容转换成PDF储存到本地。用到...

  • 利用Python爬取教程并转为PDF文档!

    作为一名程序员,经常要搜一些教程,有的教程是在线的,不提供离线版本,这就有些局限了。那么同样作为一名程序员,遇到问...

  • python爬取在线教程转成pdf

    1、网站介绍 之前再搜资料的时候经常会跳转到如下图所示的在线教程: 01.教程样式 包括一些github的项目也纷...

  • Python爬虫:爬取在线教程转成pdf

    作为一名程序员,经常要搜一些教程,有的教程是在线的,不提供离线版本,这就有些局限了。那么同样作为一名程序员,遇到问...

  • Python爬虫:爬取在线教程转成pdf

    作为一名程序员,经常要搜一些教程,有的教程是在线的,不提供离线版本,这就有些局限了。那么同样作为一名程序员,遇到问...

  • Python学习

    python爬虫(五) python爬虫爬取豆瓣电影Top250数据 利用python爬取豆瓣电影TOP250页面...

  • python爬取pdf

    哈哈哈练习爬虫技术,去到了lxml的官网去看那个document看到那个可以pdf的标准就点开了。想到res.co...

  • python3 requests详解

    requests库是一个常用的用于http请求的模块,它使用python语言编写,可以方便的对网页进行爬取,是学习...

  • 利用python爬取股票交易数据

    利用python爬取股票交易数据 分析网站 找到返回的url 爬取股票交易数据 思路,我们利用request来请求...

网友评论

    本文标题:利用Python爬取在线教程!并把它转为PDF,方便学习!

    本文链接:https://www.haomeiwen.com/subject/wwcadftx.html