美文网首页
2018-05-11爬虫笔记(三)下载简书图片

2018-05-11爬虫笔记(三)下载简书图片

作者: 小郑的学习笔记 | 来源:发表于2018-05-12 10:23 被阅读0次

这里我继续之前的例子,下载知名生物信息博主hoptop 博客里面的图片。这里假设已经知道了如何提取主页中每篇文章的链接,然后迭代爬取每篇文章的内容,这个时候,如何获取每篇博客中的图片信息呢?

其实使用scrapy很容易,里面内置了图片下载的功能,也就是所谓的ImagesPipelines

接下来直接实战
1 首先先是创建一直spider


选取一个要爬的网站地址作为例子

2 在 setting 中启用Imagespiplines


优先级要高

3 设置下载图片所在的目录路径


这里设置为download_images

4 解析页面


检查

这里使用右击检查,可以看到图片的src 这是图片的连接,待会儿要放入一个列表让爬虫去下载

5 编写爬虫,这里直接上代码:

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request



class DImageSpider(scrapy.Spider):
    name = 'D_image'
    allowed_domains = ['www.jianshu.com/p/300e7732d952']
    start_urls = ['http://www.jianshu.com/p/300e7732d952/']

    def parse(self, response):
        item = {}
        item['image_urls']=[]
        for url in response.xpath('//img/@data-original-src').extract():
            download_url = "http:" + url
            item['image_urls'].append(download_url)

        yield item

主要是建立一个item 的字典,然后建立一个imge_urls的列表,竟然解析response,把连接提取出来,放入列表中就可以了。最后封装一下就可以。

然后我们试一下:

scrapy crawl D_image

OK

下载好了

点开看看

一样的.png

这样,简书的图片也可以下载啦,整个过程还是比较容易的,配合之前文字爬取,原理上可以下载全文了,但然还要针对排版设计一下提取规则。

相关文章

  • 2018-05-11爬虫笔记(三)下载简书图片

    这里我继续之前的例子,下载知名生物信息博主hoptop 博客里面的图片。这里假设已经知道了如何提取主页中每篇文章的...

  • 爬虫下载图片

    IOUtils类 ReptileGetList类

  • 高效笔记记录法-康奈尔式笔记记录法

    图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 它的具体操作是: 第一步:把笔记本...

  • 黎家新貌(七律)

    三亚七日游有感而作!图片发自简书App图片发自简书App图片发自简书App图片发自简书App图片发自简书App图片...

  • 就从今天开始吧

    认识简书是源于一张图片,在收索图片来源时被告知图片发布于简书,也不知出于什么原因就下载安转了简书。 ...

  • 我是如何三年读了200本书 2018-9-10

    我是如何三年读了200本书 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发...

  • 三月的美

    图片发自简书App 图片发自简书App 三月的汉中,已然成为无处不飞花的春城。 图片发自简书App图片发自简书Ap...

  • 2019-2-7晨间日记

    今天是什么日子 大年初三 起床:6:30 图片发自简书App图片发自简书App图片发自简书App图片发自简书App...

  • scrapy总结

    自定义数据管道(注意激活管道) 类方法 图片下载 scrapy.Spider 通用爬虫 爬虫文件 通常防止爬虫被反...

  • 【童心心语】游张掖七彩丹霞有感

    图片发自简书App图片发自简书App图片发自简书App图片发自简书App图片发自简书App图片发自简书App图片发...

网友评论

      本文标题:2018-05-11爬虫笔记(三)下载简书图片

      本文链接:https://www.haomeiwen.com/subject/qyezrftx.html