引言:
最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码!
第一步:
准备环境 和类库,我用的是python3.5 禁用 python2.x ! 禁用 python2.x ! 禁用 python2.x !
用到的类库:requests lxml bs4 fake_useragent pymysql
这里你 pip 安装也好或者用pycharm
pycharm 引包位置
第二步:找漫画网站
先说好本教程仅供学习交流禁止用于商务用途和其他用途
我选了一家相对还不错的漫画网站,各位小伙伴没事可以去看看
传送门: https://www.mkzhan.com
第三步: 开始编程了 准备好小伙伴
好了先导包
然后那编辑几个需要用到的方法
先做一个请求网页的方法
在这里headers 需要配置一个user-agent,否则很容易就会被对方服务器发现你是爬虫那
然后创建一个图片检测方法,毕竟图片损坏了你下载下来也没用
先抓详情 来分析下页面结构
嗯 这是我找出一些有用的信息 ,不过今天我们只用到标题 封面 和章节,然后哪章节列表举栗子,先上码
分析下li 特性 class 里都有一个参数 j-chapter-item 那好 find_all 把符合规则的拿出来
然后根据标题创建文件夹,同时根据封面的页面规则 抓到封面的img 放到之前写好的 get_img 方法里检测下,然后open 下载下来
刚刚抓好的章节列表遍历下,毕竟我们要把每章节的每张有用图片下载下来
新建一个章节的抓取方法
这里要把章节里的图片抓取出来
按照上面分析下html结构,根据规则做相应的抓取 并将图片下载到相应的位置
结果:
好了大功告成,代码虽然很比较low 但毕竟一个初级学员 大神勿喷
相对于想开始尝试做一下python抓取的同学很合适哦
不多说上源码 github:传送门
网友评论