美文网首页编程类图书馆我爱编程
零基础Python爬取网页文章和图片详细教学(内附源码、教学视频

零基础Python爬取网页文章和图片详细教学(内附源码、教学视频

作者: _年少无为 | 来源:发表于2018-08-03 16:55 被阅读1次

    Python爬虫,这个我相信对于很多人来说都不陌生!

    今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下!


    开发环境:版本Python3.6.2!(2版本会在20年的时候停止更新库,建议大家现在想学习的话可以学习3版本,但是不建议用3.7,还存在很多库不支持)

    版本

    编译器:PyCharm!(新手的话pycharm比较适合)

    使用的库:

    在Python2.x中使用 import.urllib

    在Python3.x中使用 importurllib.request

    (这是在Python2和3中最直接区别)


    OK!进入正题!想要完成到最后一步下载小说,之前我们应该完成什么操作呢?

    1.获取主页面源代码

    2.获取章节超链接

    3.获取章节源代码

    4.获取内容

    5.下载小说

    第一步:定义函数(驼峰命名法,对于刚接触编程的小伙伴来说,养成良好的习惯很重要,还有就是注释)

    def getNovelContent():

    pass

    第二步:获取页面源代码

    获取页面源代码

    这里需要注意的点就在于,需要调整获取的编码,不然会形成乱码

    html = html.decode('gbk')

    将编码格式切换为gbk!!!

    第三步:获取章节超链接

    需要用到库:正则表达式

    **import **re

    获取超链接

    第四步:获取章节源代码

    获取章节源代码

    同样,跟之前获取主页源代码一样,需要统一格式!

    第五步:获取内容

    获取内容

    同样使用正则表达式!

    第六步:下载小说

    下载小说

    代码运行到这里基本上就已经结束了,可以看到小图代码成功运行,正在下载小说

    运行完成

    其实这个不仅仅可以爬取免费的小说,收费的按道理也是可以的,但是因为不能侵犯别人的版权等!最好是不要去这么做!


    今天就分享到这里了,感谢各位大大关注!转发哦!有什么不对的可以在评论里面直接写出来的!

    需要中文软件,案例源码,讲解视频可以加QQ群:838197940!进群备注“简书资料”!​​​​

    相关文章

      网友评论

        本文标题:零基础Python爬取网页文章和图片详细教学(内附源码、教学视频

        本文链接:https://www.haomeiwen.com/subject/kfkuvftx.html