一. Scrapy爬虫基础

作者: 橄榄的世界 | 来源:发表于2018-03-04 12:31 被阅读0次

最简单的Scrapy爬虫程序:

import scrapy

class Books(scrapy.Spider):
    name = 'books'                                               #建立唯一爬虫名,调用CMD命令时会用到
    start_urls = ['http://books.toscrape.com/']                  #爬取开始地址

    def parse(self, response):                       #默认解析函数
        infos = response.xpath('//article')          #直接使用response.xpath来解析信息
        for info in infos:
            title = info.xpath("h3/a/@title").extract()              #最终提取信息时,加上.extract()
            price = info.xpath('div/p[@class="price_color"]/text()').extract()

            yield {'title':title,'price':price}                               #生成器返回数据信息

运行命令:scrapy crawl books -o books.csv
结果截图:

image.png

当然,如果要爬取下一页的页面,共计50页,可以在parse()函数下添加以下代码,然后运行上述代码即可获取每页20条,共计1000条的图书标题以及价格信息:

def parse(self, response):  
    ...
    next_url = response.xpath('//li[@class="next"]/a/@href').extract()[0]
            if next_url:
                next_url = response.urljoin(next_url)
                yield Request(next_url,callback=self.parse)

相关文章

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • 爬虫实战系列说明

    说明 本系列文章只会介绍爬虫框架scrapy的实际使用以及scrapy的核心原理,爬虫所需的前端基础(HTML,C...

  • 10分钟从入门到进阶python爬虫

    本文目录 基础入门 基本模块 方法实例 爬虫框架(scrapy) 常用工具(神器) 分布式爬虫 一、基础入门 1....

  • Pycharm+Scrapy框架运行爬虫糗事百科(无items数

    scrapy爬虫框架 qsbk.py 爬虫代码 import scrapy'''scrapy框架爬虫流程:发送请求...

  • 爬虫框架常见命令(善忘者)

    1 scrapy 创建scrapy 爬虫项目 生成一个爬虫 启动爬虫 2 scrapy-crawl 生成一个cr...

  • 一. Scrapy爬虫基础

    最简单的Scrapy爬虫程序: 运行命令:scrapy crawl books -o books.csv结果截图:...

  • scrapy爬虫基础(一)

    准备工作 安装 anaconda下载地址[https://www.anaconda.com/products/in...

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • scrapy爬虫

    运行爬虫 scrapy crawl +<爬虫名字>Scrapy的安装:pip install scrapy创建s...

  • 深度爬虫

    scrapy深度爬虫 1.深度爬虫概述2.scrapy Spider实现的什么爬虫3.scrapy CrawlSp...

网友评论

    本文标题:一. Scrapy爬虫基础

    本文链接:https://www.haomeiwen.com/subject/ozjxfftx.html