初见爬虫--第一次练习

初见爬虫--第一次练习

作者: 拢口_020a | 来源:发表于2018-10-28 23:36 被阅读140次

初见爬虫--第一次练习
推荐一个可玩的爬虫开源项目-闲鱼部分我已经测试过
最新的爬虫项目集合，里面项目已经验证能用
爬虫分析之数据存储——基于MySQL,Scrapy
Python爬虫之爬取美女图片
re模块
练习：豆瓣电影TOP250爬虫
python 爬小说
2020-02-01 python 爬虫小练习-下载“百度”图片
在你的眼里看见了我自己

爬取目标：http://desk.zol.com.cn/dongman/

效果：

1，壁纸保存到脚本运行目录下的的image的子文件夹（并有合适的命名）内。

2.保存的图片必须以对应标题名和分辨率来命名

3.图片分辨率应该是可选分辨率中最高的。

使用库如下

根据需求构造函数如下

1.获取etree（对超时情况进行timeout的增加，保证任务顺利进行）

2.获取每套壁纸名称，网址一级目录，每套张数

3.获取子目录网址

4.获取每张图片的地址和分辨率（针对个别不统一的页面进行条件判断）

5，构造文件名以及文件夹名

6，创建文件夹（考虑目录已存在的情况）

7，获取图片并保存（注意到png和jpg图片格式不同，保存之前统一convert成RGB格式）

最后一步，关联各部分函数得到主函数（部分循环嵌套了一下，偷个懒♪(･ω･)ﾉ）

最终效果；

实际上总共爬取1.7G的文件竟用了2小时多，为充分利用宽带资源，考虑使用多线程

使用thread模块，将上面主函数改成def imgPageOut（p），效果是爬取第p页的图片

用math.floor（）解决余留页

看一下效果

设置线程数25的情况下，充分利用宽带，提速近10倍

爬取到的资源完全一致，效果不错！

相关文章

初见爬虫--第一次练习
爬取目标：http://desk.zol.com.cn/dongman/ 效果： 1，壁纸保存到脚本运行目录下的的...
推荐一个可玩的爬虫开源项目-闲鱼部分我已经测试过
ECommerceCrawlers 多种电商商品数据?爬虫，整理收集爬虫练习。通过实战项目练习解决一般爬虫中遇到的...
最新的爬虫项目集合，里面项目已经验证能用
ECommerceCrawlers 多种电商商品数据?爬虫，整理收集爬虫练习。通过实战项目练习解决一般爬虫中遇到的...
爬虫分析之数据存储——基于MySQL,Scrapy
上一篇->爬虫练习之数据整理——基于Pandas上上篇->爬虫练习之数据清洗——基于Pandas 配置MySql ...
Python爬虫之爬取美女图片
需求：最近对python爬虫感兴趣，于是学习了下python爬虫并找了个网站练习，练习网址：http://www....
re模块
匹配标签匹配整数数字匹配爬虫练习
练习：豆瓣电影TOP250爬虫
练习：豆瓣电影TOP250爬虫（优化）
python 爬小说
学习爬虫，练习一下，环境python 3.6
2020-02-01 python 爬虫小练习-下载“百度”图片
1.python 爬虫小练习 #爬虫import requests#第三方库url="http://www.bai...
在你的眼里看见了我自己
不知道是怎样的缘分，有了这样的相遇，初见，觉得她漂亮淡定，清冷，第一次小组练习，我有些玩味，觉得新手练习是不可能出...

网友评论

Artoriax:woc大佬太强了，我好好摩拜一发
acc00bf76433:woc大佬太强了，我好好摩拜一发

本文标题：初见爬虫--第一次练习

本文链接：https://www.haomeiwen.com/subject/qgwjtqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

python入门教程

热点阅读

python入门教程

程序员

关于我们|服务条款|联系我们|初见爬虫--第一次练习|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！