python scrapy框架相关详解

作者: peanut___ | 来源:发表于2019-08-23 11:59 被阅读0次

python scrapy框架相关详解
Scrapy流程及模块介绍
Scrapy框架步骤
Python爬虫基础：scrapy框架简介及第一个scrapy爬
18年学习技术列表
2021-07-21
2019Python学习教程（全套Python学习视频）：Scr
06 scrapy框架
pyhton爬虫学习（十）：常用的框架简单介绍
Scrapy安装教程

一、scrapy （死亏呸）架构

微信截图_20180119165856.png

1 scrapy engine 引擎：指挥调动
2 spider 爬虫负责从responses中提取分析数据，然后再次交还给调度器scheduler
3 itempipeline 管道文件对数据的操作处理spider中的item，进行后期处理（过滤、详细分析、存储等）
4 downloader 下载器下载对应的响应文件之后将responses（资源）由引擎交给spider处理
5 scheduler 调度器接受引擎的request的请求，整理排列，信号数据传递，当引擎需要，交还到引擎。
downloader middlewares（下载中间件）：自定义扩展下载功能组件。
spider middlewares（spider中间件）：自定义扩展通信等

调度流程：1（引擎） 2（爬虫代码）3（管道） 5（调度器） 4（下载文件） 2 成功 3 其他 5

二、相关命令

命令：
新建项目（scrapy startproject xxx）
明确目标（写代码）
制作爬虫（spiders/xxspider.py）
存储内容（pipelines.py）

制作爬虫：
scrapy genspider [name] "[address.com]" 生成代码

三、方法说明

spider
爬虫基本类，所有爬虫继承的类

必要参数：
name 成员爬虫名运行名
start_urls 成员目标名执行目标网站

可选参数（可以被重写）：

# 允许爬虫爬的地址
allowed_domains 

# 读取start_urls内的地址，为每个地址生成一个request对象，交给scrapy下载返回response，只调用一次
def start_requests(self):
    for url in self.start_urls:
        yield self.make_request)_from_url(self)

# 实际生成request    
def make_request_from_url(self, url):
    # 地址、去重(根据生成的标识码，储存到内存，对比去重)
    return Request(url, dont_filter=true)

# 网页处理回调，处理爬到的数据。没写的话当默认处理
parse(self, response):

# 爬虫日志
log(self, message[, level, component]):

四、安装问题

1.Could not find a version that satisfies the requirement Twisted>=13.1.0 (from scrapy) (from versions: )，No matching distribution found for Twisted>=13.1.0 (from scrapy)（缺少twisted依赖）

解决办法：

# virtualenv --python=python3.6 ENV
# source ENV/bin/activate
wget https://twistedmatrix.com/Releases/Twisted/17.1/Twisted-17.1.0.tar.bz2
tar -jxvf Twisted-17.1.0.tar.bz2
cd Twisted-17.1.0
python setup.py install
cd ..
pip install scrapy

网友评论

本文标题：python scrapy框架相关详解

本文链接：https://www.haomeiwen.com/subject/ahvzsctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python scrapy框架相关详解

一、scrapy （死亏呸）架构

二、相关命令

三、方法说明

四、安装问题

相关文章