美文网首页程序员
通过Python3 爬虫抓取漫画图片

通过Python3 爬虫抓取漫画图片

作者: 住在北京的河北人 | 来源:发表于2018-12-27 15:50 被阅读5次

       引言: 

                最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码!

          第一步:

                    准备环境 和类库,我用的是python3.5      禁用 python2.x ! 禁用 python2.x !  禁用 python2.x !

                    用到的类库:requests  lxml  bs4  fake_useragent     pymysql   

                    这里你 pip  安装也好或者用pycharm 

    pycharm 引包位置

            

    第二步:找漫画网站

                        先说好本教程仅供学习交流禁止用于商务用途和其他用途
                        我选了一家相对还不错的漫画网站,各位小伙伴没事可以去看看
                       传送门: https://www.mkzhan.com

    第三步: 开始编程了 准备好小伙伴

    好了先导包

    然后那编辑几个需要用到的方法 

            先做一个请求网页的方法

    在这里headers 需要配置一个user-agent,否则很容易就会被对方服务器发现你是爬虫那

    然后创建一个图片检测方法,毕竟图片损坏了你下载下来也没用

    先抓详情 来分析下页面结构

    嗯 这是我找出一些有用的信息 ,不过今天我们只用到标题 封面 和章节,然后哪章节列表举栗子,先上码

    分析下li 特性 class 里都有一个参数 j-chapter-item 那好 find_all 把符合规则的拿出来
    然后根据标题创建文件夹,同时根据封面的页面规则 抓到封面的img 放到之前写好的 get_img 方法里检测下,然后open 下载下来

    刚刚抓好的章节列表遍历下,毕竟我们要把每章节的每张有用图片下载下来

    新建一个章节的抓取方法

    这里要把章节里的图片抓取出来
    按照上面分析下html结构,根据规则做相应的抓取 并将图片下载到相应的位置

    结果:

    好了大功告成,代码虽然很比较low 但毕竟一个初级学员 大神勿喷
    相对于想开始尝试做一下python抓取的同学很合适哦

    不多说上源码 github:传送门

    相关文章

      网友评论

        本文标题:通过Python3 爬虫抓取漫画图片

        本文链接:https://www.haomeiwen.com/subject/dbyrlqtx.html