1.安装:pip3 install scrapy
2.框架的结构:
引擎:负责信号和数据的传递,起协调作用, (框架帮我们实现了)
spider爬虫文件:第一获取目标数据,第二提取新的url (手动实现)
调度器:会将Request 请求任务,存储在任务队列中,引擎会从任务队列中提取任务,交给下载器 (框架帮我们实现了)
下载器:接受引擎传递过来的请求,发起请求,获取相应.最终将相应结果交给spider爬虫文件. (框架帮我们实现了)
管道文件:将spider爬虫问加你yeild的item数据,做过滤和持久化 (手动实现)
下载中间件:自定义下载组件(请求任务和响应结果都会经过下载中间件))
代理中间件,cookies中间件,User-Agent中间件,selenium中间件 (框架帮我们实现了)
爬虫中间件:可以自定义request请求和过滤Requests响应 (特殊需求需手动实现)
如何使用scrapy 框架写一个项目
1.创建项目:scrapy startproject 项目名称
2.创建爬虫文件:
(1)cd 到spiders文件夹下
(2)scrapy genspider 爬虫名称 域
框架内部的py文件以及作用
网友评论