Scrapy crawspider和Scrapy_Redis分布

Scrapy crawspider和Scrapy_Redis分布

作者: Crld | 来源:发表于2018-12-08 16:49 被阅读0次

Scrapy crawspider和Scrapy_Redis分布
scrapy分布式爬虫scrapy_redis一篇
scrapy_redis分布式爬虫
python3 scrapy_redis 分布式爬取房天下存mo
33.scrapy_redis概念作用和流程
python爬虫之Scrapy_Redis分布式爬虫
Scrapy_Redis分布式爬虫
34.scrapy_redis原理分析并实现断点续爬以及分布式爬
scrapy中scrapy_redis分布式内置pipeline
scrapy_redis 的redis配置password 和d

Scrapy框架的简单使用

创建项目：scrapy startproject xxx

进入项目：cd xxx #进入某个文件夹下

创建爬虫：scrapy genspider xxx（爬虫名） xxx.com （爬取域）

生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)

运行爬虫：scrapy crawl XXX

列出所有爬虫：scrapy list

Scrapy框架的整体架构和组成

图中绿色的是数据的流向

我们看到图里有这么几个东西，分别是

Spiders：爬虫，定义了爬取的逻辑和网页内容的解析规则，主要负责解析响应并生成结果和新的请求

Engine：引擎，处理整个系统的数据流处理，出发事物，框架的核心。

Scheduler：调度器，接受引擎发过来的请求，并将其加入队列中，在引擎再次请求时将请求提供给引擎

Downloader：下载器，下载网页内容，并将下载内容返回给spider

ItemPipeline：项目管道，负责处理spider从网页中抽取的数据，主要是负责清洗，验证和向数据库中存储数据

Downloader Middlewares：下载中间件，是处于Scrapy的Request和Requesponse之间的处理模块

Spider Middlewares：spider中间件，位于引擎和spider之间的框架，主要处理spider输入的响应和输出的结果及新的请求middlewares.py里实现

1.spider的yeild将request发送给engine

2.engine对request不做任何处理发送给scheduler

3.scheduler，生成request交给engine

4.engine拿到request，通过middleware发送给downloader

5.downloader在\获取到response之后，又经过middleware发送给engine

6.engine获取到response之后，返回给spider，spider的parse()方法对获取到的response进行处理，解析出items或者requests

7.将解析出来的items或者requests发送给engine

8.engine获取到items或者requests，将items发送给ItemPipeline，将requests发送给scheduler（ps，只有调度器中不存在request时，程序才停止，及时请求失败scrapy也会重新进行请求）

CrawlSpider是一个类，父类是scrapy.Spider。

CrawlSpider不仅有Spider的功能，还有自己独特功能

特有功能：CrawlSpider可以定义规则，解析html时可根据链接规则

提取出指定链接，然后再向这些链接发送请求。

通常用于：如果有需要跟进链接的需求，爬取网页之后，需要提取链接再次爬取。

如何提取链接？

链接提取器，在这里就可以写规则提取指定链接

scrapy.linkextractors.LinkExtractor(

allow = (), # 正则表达式提取符合正则的链接

deny = (), # (不用)正则表达式不提取符合正则的链接

allow_domains = (), # （不用）允许的域名

deny_domains = (), # （不用）不允许的域名

restrict_xpaths = (), # xpath，提取符合xpath规则的链接

retrict_css = () # 提取符合选择器规则的链接)

相关文章

Scrapy crawspider和Scrapy_Redis分布
Scrapy框架的简单使用创建项目：scrapy startproject xxx 进入项目：cd xxx #进...
scrapy分布式爬虫scrapy_redis一篇
scrapy分布式爬虫scrapy_redis一篇[https://cloud.tencent.com/devel...
scrapy_redis分布式爬虫
说到redis了，自然就要说到另一个爬虫框架scrapy_redis，分布式爬虫，scrapy与scrapy_re...
python3 scrapy_redis 分布式爬取房天下存mo
（一）scrapy_redis 简单介绍 scrapy_redis基于scrapy框架的基础上集成了redis，通...
33.scrapy_redis概念作用和流程
scrapy_redis概念作用和流程学习目标了解分布式的概念及特点了解 scarpy_redis的概念 ...
python爬虫之Scrapy_Redis分布式爬虫
为甚要学习scrapy_redis？？ Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具...
Scrapy_Redis分布式爬虫
为甚要学习scrapy_redis？？ Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具...
34.scrapy_redis原理分析并实现断点续爬以及分布式爬
scrapy_redis原理分析并实现断点续爬以及分布式爬虫学习目标了解 scrapy实现去重的原理了解 s...
scrapy中scrapy_redis分布式内置pipeline
scrapy_redis分布式实现了一套自己的组件，其中也提供了Redis数据存储的数据管道，位于scrapy_r...
scrapy_redis 的redis配置password 和d
scrapy_redis指定password和 db 方式一：方式二：

网友评论

本文标题：Scrapy crawspider和Scrapy_Redis分布

本文链接：https://www.haomeiwen.com/subject/fdiqhqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy crawspider和Scrapy_Redis分布|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！