Scrapy指令笔记

作者: 挠叔 | 来源:发表于2018-03-06 20:58 被阅读8次

Scrapy指令笔记
Scrapy笔记-常用指令
python3.6安装scrapy框架
Scrapy爬虫项目学习
Scrapy笔记
scrapy笔记
Scrapy笔记
scrapy学习笔记(有示例版）
Scrapy常见指令
Python爬虫scrapy框架

fetch 可以直接获取一个网页
genspider 创建爬虫文件
runspider 运行一个爬虫
settings 爬虫配置相关
shell 进入交互页面
startproject 创建一个爬虫项目

创建一个爬虫项目
scrapy startproject cw(文件名)
cw 核心目录 scrapy.cfg 整个爬虫项目的配置
spiders 所有的爬虫文件都会放在spiders文件夹里面
init.py初始化文件不用管
iterms.py 定义一些爬去目标（比如爬当当网上的书内容还是价格还是图片爬什么就是目标全部写在items.py里）
middlewares.py 中间键。在爬去中间中间都经历了什么。（代理IP池）
pipelines.py 爬去后数据你要做什么是写入什么东西还是干什么

settings.py全局的
item(爬虫目标)->spiders(爬虫文件)->pipelines(数据处理)

sprapy指令
全局指令项目指令

crawl 运行一个爬虫文件
edit 编辑一个爬虫文件
list 看一下当前爬虫项目下的爬虫文件

scrapy fetch http://www.baidu.com 获取百度

不创建爬虫项目单独运行爬虫文件

scrapy shell http://www.baidu.com 进入python》〉》模式
exit() 退出

scrapy view http://news.163.com 将数据下载到本地并且在浏览器中打开

scrapy check +文件名检查爬虫是否可行

scrapy crawl 文件 —nolog 运行爬虫并不打印日志

scrapy list 当前有可运行的爬虫

网友评论

本文标题：Scrapy指令笔记

本文链接：https://www.haomeiwen.com/subject/iyorfftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Scrapy指令笔记

相关文章