Scrapy 连接提取器 Link Extractors

作者: 会爬虫的小蟒蛇 | 来源:发表于2022-07-31 13:58 被阅读0次

(十一) Link Extractors
CSDN热榜、华为云博客都可用来练习Python scrapy
Scrapy爬虫入门教程十二 Link Extractors（链
2019-06-30
对豆瓣读书TOP250的爬虫实验
Python爬虫 --- 2.2 Scrapy 选择器的介绍
PW05
Scrapy1.6 爬虫框架2 提取数据
Scrapy学习笔记02-选择器
[CP_14] Python爬虫框架01：Scrapy框架创建项

Link Extractors需要在 CrawlSpider 类中使用

连接提取器可以简化对简单网页的列表URL提起

快速创建命令：

scrapy genspider -t crawl spiderName xxx.com

单独引入：

from scrapy.linkextractors import LinkExtractor

接口信息：

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), restrict_css=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

allow：通过正则表达式提取URL
restrict_xpaths：通过Xpath 提取URL
restrict_css：通过Css选择器提取URL
process_value：对提取出的URL进行进一步处理
strip：提取的地址前后多余的空格删除

实例：

from scrapy.spiders import CrawlSpider, Rule

class TestSpider(CrawlSpider):
    name = 'test'
    # allowed_domains = ['ssr1.scrape.center']
    start_urls = ['http://ssr1.scrape.center/']
    rules = (
        Rule(LinkExtractor(attrs=('href',),  process_value="parse_url"), callback="parse_item", follow=False, ),
    )

    def parse_item(self, response):
        print(response.css(".m-b-sm::text").extract_first())
        # pass

    def parse_url(self, url):
        return "https://ssr1.scrape.center/" + url