美文网首页
2018-09-19 scrapy-Pipeline(一)

2018-09-19 scrapy-Pipeline(一)

作者: 认真的史莱冰 | 来源:发表于2018-09-19 12:49 被阅读0次

    当item进入pipeline的时候就要经过一个个管道,入库或者进行其他作用。先介绍scrapy内置的Pipeline图片管道和文件管道

    图片管道

    首先如果要用图片管道那么就必须启用item,用item对象才能完成对图片的读写

    在items文件中的某一个Item类中,我们需要img_urls和images作为成员变量

    img_urls装载的是图片链接,

    images是不需要在spider中被赋值的,在图片管道文件中,如果这个images对应的img_urls是正确的,那么下载到的图片信息会传递给这个images

    在settings文件中,我们要指出他的存储路径,用

    IMAGES_STORE这个名字(不能乱改的)

    并且可以在IMAGES_MIN_HEIGHT和IMAGES_MIN_WIDTH中设置图片的最小宽度和长度设定好这些就直接开始爬就完事儿了

    IMAGES_EXPIRES可以设置有效的图片时间,这个90天中是不会再一次下载这个图片

    IMAGES_THUMBS这个可以设置缩略图

    相关文章

      网友评论

          本文标题:2018-09-19 scrapy-Pipeline(一)

          本文链接:https://www.haomeiwen.com/subject/meabnftx.html