1.创建项目 scrapy startproject + 项目名称
2.进入到spiders 文件夹下 创建爬虫文件 scrapy genspider + 爬虫文件名称 + 网站的域
.创建完成之后打开pycharm 创建好的项目,选择虚拟环境
注意:爬虫文件的名称不可以和项目的名称重名
scrapt 项目的架构
chinaz 项目文件夹
spiders 存放所有的爬虫文件
zzw.py 爬虫文件(解析response 响应,提取目标数据和url)
items.py 编写要爬取的字段
middiewares.py 中间件(爬虫中间件,下载中间件)
piplines.py 数据管道(做数据持久化)
settings.py 设置文件(设置请求头,下载延迟,是否遵循robot协议,等 ....)
scrapy.cfg 配置文件(部署项目的时候会用到)
运行 : 进入chainz/ 在进入 spiders 在执行scrapy crawl zzw
使用框架可以更高的提升我们的执行效率
1.引擎:负责各个模块的数据传递
创建通用爬虫: scrapy crawl -t genspider + 爬虫名称 + 网站的域
网友评论