scrapy进阶开发（二）：暂停与重启

scrapy进阶开发（二）：暂停与重启

作者: 9c0ddf06559c | 来源:发表于2018-03-01 21:46 被阅读43次

scrapy进阶开发（二）：暂停与重启
Scrapy+redis分布式爬虫(六、scrapy进阶原理)
scrapy的暂停与重启
scrapy入门(二)
13.scrapy的暂停与重启
scrapy的暂停和重启
第八章 scrapy进阶
暂停与重启
Scrapy的暂停和重启及采坑记录
python爬虫框架Scrapy

方法1：命令行设置

# 进入虚拟环境
workon ${YOUR_VIRTUAL_ENV}
# 进入爬虫目录
cd ${YOUR_SPIDER_HOME}
# 爬虫启动命令
srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}
# 暂停 ctrl+c
# 重启 srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}

方法2：爬虫文件内设置

# spider项目里自定义配置
custom_settings={
    JOBDIR : ${STATE_SAVE_PATH}
}
...
# 命令行正常启动
srapy crawl spider lagou 
...

中间态文件内容

文件名	类型	用处
request.seen	文件	已经访问过的url
spider.state	文件	spider的状态信息
requests.queue	文件夹	request队列
requests.queue/p0	文件	需要继续做完的request

注意
- JOBDIR目录下保存中间态信息
- 不同的spider不能共用同一个目录
- 不同的run不能共用同一个目录
- 不能用kill -9 main.py 命令强制结束爬虫
- 正常退出使用ctrl+c（只能按一次，按完需要一段时间处理中间状态）

相关文章

scrapy进阶开发（二）：暂停与重启
方法1：命令行设置方法2：爬虫文件内设置中间态文件内容注意JOBDIR目录下保存中间态信息不同的spider...
Scrapy+redis分布式爬虫(六、scrapy进阶原理)
一、暂停与重启为了让scrapy能实现暂停和重启，需要积累爬虫工作的中间状态，在启动爬虫时使用以下命令：我们也...
scrapy的暂停与重启
在爬取大型站点的时候，或遇到某些特殊情况的时候，往往需要赞同爬虫，并稍后再接着之前执行到的位置继续爬取，而不是每次...
scrapy入门(二)
暂停和重启 https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/...
13.scrapy的暂停与重启
如果要scrapy爬取一段时间暂停，并稍后重启，需要在项目下创建一个用于存放scrapy中间状态文件的文件夹。创...
scrapy的暂停和重启
方法一方法二然后正常启动爬虫
第八章 scrapy进阶
scrapy 进阶标签（空格分隔）： python scrapy selenium selenium动态网页与请...
暂停与重启
在手机游戏当中，会碰到“强制暂停”,如:锁屏、接电话或短信之类的。如果“强制暂停”时间过长，网络游戏有时得重新登录...
Scrapy的暂停和重启及采坑记录
Scrapy的暂停和重启有两种方式：官方文档介绍、中文文档一、命令行方式：两个spider_name即为爬虫名称...
python爬虫框架Scrapy
爬虫框架Scrapy(二) 使用框架Scrapy开发一个爬虫只需要四步：创建项目：scrapy startproj...

网友评论

本文标题：scrapy进阶开发（二）：暂停与重启

本文链接：https://www.haomeiwen.com/subject/angnxftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

python 学习笔记

我是程序员；您好程先生；叫我序员就好了

热点阅读

python 学习笔记

程序员

我是程序员；您好程先生；叫我序员就好了

关于我们|服务条款|联系我们|scrapy进阶开发（二）：暂停与重启|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！