Python爬虫（11）用Scrapy爬取新浪旅游图片

作者: 山阴少年 | 来源:发表于2017-12-08 13:20 被阅读28次

Python爬虫（11）用Scrapy爬取新浪旅游图片
【读书笔记】_爬虫
各类链接
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
Python学习
python爬虫：用selenium控制浏览器，爬取蛋壳公寓租房
Scrapy与scrapy-redis分布式爬虫抓取
3个适合新人上手的Python项目
python-爬虫学习（文字、图片、视频）
python爬虫学习（文字、图片、视频）

本次分享将展示如何利用Scrapy爬取网页中的图片。爬取的网页如下：

新浪旅游网页
首先建立sina_trip项目：

scrapy startproject sina_trip

在settings.py中，添加代码：

ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1}
IMAGES_URLS_FIELD = 'url'
IMAGES_STORE = r'.'

items.py中的代码如下：

import scrapy

class SinaTripItem(scrapy.Item):
    url  = scrapy.Field()

然后在spiders文件夹下新建文件sina_trip_spider.py，代码如下：

import scrapy
from scrapy.spiders import Spider  
from scrapy.selector import Selector  
from sina_trip.items import SinaTripItem  
  
class sinaTripSpider(Spider):  
    name = "sinaTripSpider"    #name of Spider  
    start_urls = ["http://travel.sina.com.cn/"]  #start url 
    
    def parse(self, response):   #parse function
        item = SinaTripItem()
        sel = Selector(response)
        sites = sel.xpath("//img/@src").extract()   #extract url of pictures
        for site in sites: 
            item['url'] = ['http:'+site]
            yield item

在终端输入命令：