Srapy第三篇: ImagesPipeline的使用
大家好呀,我来填坑了(半夜写文也是有些醉啊,课太多没有办法唉。。)
(先随便放个图)
上次的项目一发出,立即有盆友留言:
"看来我们开的不是一辆车"
”还是您这趟比较快“
(详情请看:Scrapy爬女神图(一)—— 这是你们要的小姐姐)
。。。。。
我,,,我还只是个纯洁的宝宝好嘛。。。
可以从框中看到图片下载异常的提示(scrapy会自动跳过)
page2我们点开DropItem的网址,发现图片真的不存在
page3page4
由上来看,一共抓取成功2042张,失败74张
来看文件发生了什么变化:
点开,可以看到生成的原图(full)和缩略图(thumbs)文件
再点开,thumbs中分big和small,大小缩略图,就是之前设置的字典中的键
点开small,可以看到图片真的是根据URL的SHA1 hash值来自动命名的,
(hash值很少会重复,所以可以实现重复判断) page5
再随便点开一个,如下,真的是缩略图哦~
page6</br>
</br>
四、资料推荐
终于差不多啦,送送福利_
我收集了一些比较优秀的资料,大家可以做个参考~
官方文档:
Scrapy0.24—— ImagesPipeline部分
优秀博客:
http://www.jianshu.com/p/2528edf4485c
用scrapy自动爬取下载图片
</br>
</br>
五、总结
最后连带之前的内容一并总结下
这两篇我们使用Scrapy抓取多级网页及图片
1、抓取多级网页:用meta传递数据
2、Scrapy抓取图片:scrapy框架+requests的get方式
3、Scrapy抓取图片: scrapy框架+内置ImagesPipeline方式
两种方式其实下载速度差不多(后面那一种可能快一些)
</br>
不过ImagesPipeline可自定义缩略图、过滤小图,还可将打印提示一些出错或不存在而无法下载的图片。 但个人感觉这个项目里面,使用第一种,将图片归类(以title名)存入文件,更加清晰也易查看。
你觉得呢?
(不要愣啦,快快点个赞吧⊙▽⊙)
网友评论