零基础Python爬取网页文章和图片详细教学（内附源码、教学视频

作者: _年少无为 | 来源:发表于2018-08-03 16:55 被阅读1次

Python爬虫，这个我相信对于很多人来说都不陌生！

今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下！

开发环境：版本Python3.6.2！（2版本会在20年的时候停止更新库，建议大家现在想学习的话可以学习3版本，但是不建议用3.7，还存在很多库不支持）

版本

编译器：PyCharm！（新手的话pycharm比较适合）

使用的库：

在Python2.x中使用 import.urllib

在Python3.x中使用 importurllib.request

（这是在Python2和3中最直接区别）

OK！进入正题！想要完成到最后一步下载小说，之前我们应该完成什么操作呢？

1.获取主页面源代码

2.获取章节超链接

3.获取章节源代码

4.获取内容

5.下载小说

第一步：定义函数（驼峰命名法，对于刚接触编程的小伙伴来说，养成良好的习惯很重要，还有就是注释）

def getNovelContent():

pass

第二步：获取页面源代码

获取页面源代码

这里需要注意的点就在于，需要调整获取的编码，不然会形成乱码

html = html.decode('gbk')

将编码格式切换为gbk！！！

第三步：获取章节超链接

需要用到库：正则表达式

**import **re

获取超链接

第四步：获取章节源代码

获取章节源代码

同样，跟之前获取主页源代码一样，需要统一格式！

第五步：获取内容

获取内容

同样使用正则表达式！

第六步：下载小说

下载小说

代码运行到这里基本上就已经结束了，可以看到小图代码成功运行，正在下载小说

运行完成

其实这个不仅仅可以爬取免费的小说，收费的按道理也是可以的，但是因为不能侵犯别人的版权等！最好是不要去这么做！

今天就分享到这里了，感谢各位大大关注！转发哦！有什么不对的可以在评论里面直接写出来的！

需要中文软件，案例源码，讲解视频可以加QQ群：838197940！进群备注“简书资料”！

网友评论

本文标题：零基础Python爬取网页文章和图片详细教学（内附源码、教学视频

本文链接：https://www.haomeiwen.com/subject/kfkuvftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

零基础Python爬取网页文章和图片详细教学（内附源码、教学视频

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

编程类图书馆

我爱编程