scrapy

作者: 恬恬i阿萌妹O_o | 来源:发表于2018-12-02 21:51 被阅读0次

1.创建项目 scrapy startproject + 项目名称
2.进入到spiders 文件夹下创建爬虫文件 scrapy genspider + 爬虫文件名称 + 网站的域
.创建完成之后打开pycharm 创建好的项目，选择虚拟环境

注意：爬虫文件的名称不可以和项目的名称重名

scrapt 项目的架构
chinaz 项目文件夹
spiders 存放所有的爬虫文件
zzw.py 爬虫文件(解析response 响应，提取目标数据和url)
items.py 编写要爬取的字段
middiewares.py 中间件(爬虫中间件,下载中间件)
piplines.py 数据管道(做数据持久化)
settings.py 设置文件(设置请求头，下载延迟，是否遵循robot协议,等 ....)
scrapy.cfg 配置文件(部署项目的时候会用到)

运行：进入chainz/ 在进入 spiders 在执行scrapy crawl zzw

使用框架可以更高的提升我们的执行效率
1.引擎：负责各个模块的数据传递

创建通用爬虫: scrapy crawl -t genspider + 爬虫名称 + 网站的域

网友评论

本文标题：scrapy

本文链接：https://www.haomeiwen.com/subject/youhcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

scrapy

注意：爬虫文件的名称不可以和项目的名称重名

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读