美文网首页爬虫python 爬虫Scrapy Python 爬虫 框架
Scrapy爬女神图(二)—— 原来还能这样玩

Scrapy爬女神图(二)—— 原来还能这样玩

作者: Wakingup88688 | 来源:发表于2017-04-18 11:41 被阅读480次
    Srapy第三篇: ImagesPipeline的使用

    大家好呀,我来填坑了(半夜写文也是有些醉啊,课太多没有办法唉。。)
    (先随便放个图)

    Paste_Image.png

    上次的项目一发出,立即有盆友留言:

    "看来我们开的不是一辆车"
    还是您这趟比较快

    (详情请看:Scrapy爬女神图(一)—— 这是你们要的小姐姐
    。。。。。
    我,,,我还只是个纯洁的宝宝好嘛。。。

    page1

    可以从框中看到图片下载异常的提示(scrapy会自动跳过)

    page2

    我们点开DropItem的网址,发现图片真的不存在

    page3
    page4
    由上来看,一共抓取成功2042张,失败74张
    来看文件发生了什么变化:
    点开,可以看到生成的原图(full)和缩略图(thumbs)文件

    再点开,thumbs中分big和small,大小缩略图,就是之前设置的字典中的键


    点开small,可以看到图片真的是根据URL的SHA1 hash值来自动命名的,
    (hash值很少会重复,所以可以实现重复判断) page5

    再随便点开一个,如下,真的是缩略图哦~

    page6

    </br>
    </br>

    四、资料推荐

    终于差不多啦,送送福利_
    我收集了一些比较优秀的资料,大家可以做个参考~
    官方文档
    Scrapy0.24—— ImagesPipeline部分
    优秀博客
    http://www.jianshu.com/p/2528edf4485c
    用scrapy自动爬取下载图片
    </br>
    </br>

    五、总结

    最后连带之前的内容一并总结下
    这两篇我们使用Scrapy抓取多级网页及图片
    1、抓取多级网页:用meta传递数据
    2、Scrapy抓取图片:scrapy框架+requests的get方式
    3、Scrapy抓取图片: scrapy框架+内置ImagesPipeline方式

    两种方式其实下载速度差不多(后面那一种可能快一些)
    </br>
    不过ImagesPipeline可自定义缩略图、过滤小图,还可将打印提示一些出错或不存在而无法下载的图片。 但个人感觉这个项目里面,使用第一种,将图片归类(以title名)存入文件,更加清晰也易查看。

    你觉得呢?

    (不要愣啦,快快点个赞吧⊙▽⊙)

    相关文章

      网友评论

      • Elitack:很赞啊,看了下感觉写的通俗易懂易入门,期待之后的多线程
        Wakingup88688: @Elitack 谢谢支持~

      本文标题:Scrapy爬女神图(二)—— 原来还能这样玩

      本文链接:https://www.haomeiwen.com/subject/kwsfzttx.html