美文网首页
Scrapy response.follow 的用法

Scrapy response.follow 的用法

作者: 会爬虫的小蟒蛇 | 来源:发表于2022-08-18 13:37 被阅读0次

response.follow主要用于简化url拼接的过程

Scrapy中对url进行拼接最原始的方式是response.urljoin 代码如下

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a/@href").extract()
    for href in href_list:
        url = response.urljoin(href)
        yield scrapy.Request(url=url, callback=self.parse_next)

虽然已经很简洁了但是依然有些多余,于是follow就诞生了

Follow用法一

直接将残缺的url字符串传入follow形参 无需关心拼接细节

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a/@href").extract()
    for href in href_list:
        yield response.follow(url=href, callback=self.parse_next)

Follow用法二

直接将Selector对象作为形参传入follow

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a/")
    for href in href_list:
        yield response.follow(url=href, callback=self.parse_next)

Follow_ALL 对 Follow 进行了进一步简化

Follow_ALL用法一

直接传入SelectorList

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a")
    yield from response.follow_all(urls=href_list, callback=self.parse_next)

Follow_ALL用法二

直接传入提取规则 这种写法与链接提取器类似

def parse(self, response):
    yield from response.follow_all(xpath="//div[@class='card']/a", callback=self.parse_next)

相关文章

  • 创建请求的捷径

    作为创建请求的捷径,你可以使用response.follow: 与scrapy.Request不同,respons...

  • python爬虫13:scrapy

    scrapy的结构 scrapy的工作原理 scrapy的用法

  • scrapy 框架总结

    scrapy的基本用法 通过命令创建项目scrapy startproject 项目名称 用pycharm打开项目...

  • scrapy.Request和response.follow的区

    在写scrapy的spider类的parse方法的时候,有些链接需要提取出来继续爬取,这里scrapy提供了一些方...

  • Scrapy入门环境搭建

    Scrapy入门环境搭建 概述 本文介绍用python3来搭建scrapy环境,实践一下最简单的scrapy用法。...

  • Scrapy

    基本用法 python -m scrapy startproject yourproject 建立project ...

  • Scrapy的用法

    1.第一步:创建爬虫项目 2.使用pycharm打开爬虫项目 打开结果如下(目录结构): 3.第三步:创建爬虫说明...

  • Linux上使用crontab命令完成定时爬虫

    本文主要记录: 1、crontab的用法。 2、crontab与scrapy的结合。 一...

  • scrapy signal的用法

    与settings同级创建一个py文件 1. 撸代码 2. 把中间件加到downloadMiddleware 官方...

  • Scrapy的CrawlSpider用法

    官方文档https://docs.scrapy.org/en/latest/topics/spiders.html...

网友评论

      本文标题:Scrapy response.follow 的用法

      本文链接:https://www.haomeiwen.com/subject/vnnegrtx.html