爬虫实战练习 - 2 - 用Scrapy进行爬取

作者: AllenBigBear | 来源:发表于2019-06-02 22:52 被阅读0次

爬虫实战练习 - 2 - 用Scrapy进行爬取
无标题文章
Scrapy流程及模块介绍
爬虫实战七、使用Scrapyd部署Scrapy爬虫到远程服务器
Python爬虫实战-使用Scrapy框架爬取土巴兔(五)
爬虫练习_使用scrapy爬取淘宝
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
Python爬虫实战-使用Scrapy框架爬取土巴兔(二)
各类链接
Python爬虫实战之爬取链家广州房价_03存储

Scrapy是现在应用最为广泛的爬虫框架了，所以我也学习一下基础地使用这个框架。

1：安装及创建环境

安装还是在pycharm下面进行安装
然后用命令scrapy startproject tutorial来进行项目创建
然后，你自己编写的爬虫内容（我这里是quotes_spider），放在spider文件夹下
整个项目内结构如下

文件结构

2：编写程序

import scrapy

class QuotesSpider(scrapy.Spider):
    #name的作用是定义这个爬虫的名字，在命令行执行的时候可以直接用这个名字而不需要执行py文件
    name = 'quotes'
    #这里其实是重写了start_requests方法，不用额外写start_urls了
    def start_requests(self):
        #重写这个函数
        urls =[
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        #遍历urls里面所有的地址，并通过回调函数来取回爬到的参数
        for url in urls:
            yield scrapy.Request(url=url,callback=self.parse)
    #定义parse函数，定义爬取哪些数据
    def parse(self,response):
        for quote in response.css('div.quote'):
            yield {
                'text':quote.css('span.text::text').extract_first(),
                'author':quote.css('small.author::text').extract_first(),
                'tags':quote.css('div.tags a.tag::text').extract(),
            }