Scrapy response.follow 的用法

作者: 会爬虫的小蟒蛇 | 来源:发表于2022-08-18 13:37 被阅读0次

创建请求的捷径
python爬虫13：scrapy
scrapy 框架总结
scrapy.Request和response.follow的区
Scrapy入门环境搭建
Scrapy
Scrapy的用法
Linux上使用crontab命令完成定时爬虫
scrapy signal的用法
Scrapy的CrawlSpider用法

response.follow主要用于简化url拼接的过程

Scrapy中对url进行拼接最原始的方式是response.urljoin 代码如下

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a/@href").extract()
    for href in href_list:
        url = response.urljoin(href)
        yield scrapy.Request(url=url, callback=self.parse_next)

虽然已经很简洁了但是依然有些多余，于是follow就诞生了

Follow用法一

直接将残缺的url字符串传入follow形参无需关心拼接细节

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a/@href").extract()
    for href in href_list:
        yield response.follow(url=href, callback=self.parse_next)

Follow用法二

直接将Selector对象作为形参传入follow

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a/")
    for href in href_list:
        yield response.follow(url=href, callback=self.parse_next)

Follow_ALL 对 Follow 进行了进一步简化

Follow_ALL用法一

直接传入SelectorList

def parse(self, response):
    href_list = response.xpath("//div[@class='card']/a")
    yield from response.follow_all(urls=href_list, callback=self.parse_next)

Follow_ALL用法二

直接传入提取规则这种写法与链接提取器类似

def parse(self, response):
    yield from response.follow_all(xpath="//div[@class='card']/a", callback=self.parse_next)

网友评论

本文标题：Scrapy response.follow 的用法

本文链接：https://www.haomeiwen.com/subject/vnnegrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Scrapy response.follow 的用法

Follow用法一

Follow用法二

Follow_ALL用法一

Follow_ALL用法二

相关文章

创建请求的捷径

python爬虫13：scrapy

scrapy 框架总结

scrapy.Request和response.follow的区

Scrapy入门环境搭建

Scrapy

Scrapy的用法

Linux上使用crontab命令完成定时爬虫

scrapy signal的用法

Scrapy的CrawlSpider用法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读