scrapy进阶开发(二):暂停与重启

作者: 9c0ddf06559c | 来源:发表于2018-03-01 21:46 被阅读43次
  • 方法1:命令行设置

# 进入虚拟环境
workon ${YOUR_VIRTUAL_ENV}
# 进入爬虫目录
cd ${YOUR_SPIDER_HOME}
# 爬虫启动命令
srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}
# 暂停 ctrl+c
# 重启 srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}
  • 方法2:爬虫文件内设置

# spider项目里自定义配置
custom_settings={
    JOBDIR : ${STATE_SAVE_PATH}
}
...
# 命令行正常启动
srapy crawl spider lagou 
...
  • 中间态文件内容

文件名 类型 用处
request.seen 文件 已经访问过的url
spider.state 文件 spider的状态信息
requests.queue 文件夹 request队列
requests.queue/p0 文件 需要继续做完的request
  • 注意

    • JOBDIR目录下保存中间态信息
    • 不同的spider不能共用同一个目录
    • 不同的run不能共用同一个目录
    • 不能用kill -9 main.py 命令强制结束爬虫
    • 正常退出使用ctrl+c(只能按一次,按完需要一段时间处理中间状态)

相关文章

  • scrapy进阶开发(二):暂停与重启

    方法1:命令行设置 方法2:爬虫文件内设置 中间态文件内容 注意JOBDIR目录下保存中间态信息不同的spider...

  • Scrapy+redis分布式爬虫(六、scrapy进阶原理)

    一、暂停与重启 为了让scrapy能实现暂停和重启,需要积累爬虫工作的中间状态,在启动爬虫时使用以下命令: 我们也...

  • scrapy的暂停与重启

    在爬取大型站点的时候,或遇到某些特殊情况的时候,往往需要赞同爬虫,并稍后再接着之前执行到的位置继续爬取,而不是每次...

  • scrapy入门(二)

    暂停和重启 https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/...

  • 13.scrapy的暂停与重启

    如果要scrapy爬取一段时间暂停,并稍后重启,需要在项目下创建一个用于存放scrapy中间状态文件的文件夹。 创...

  • scrapy的暂停和重启

    方法一 方法二 然后正常启动爬虫

  • 第八章 scrapy进阶

    scrapy 进阶 标签(空格分隔): python scrapy selenium selenium动态网页与请...

  • 暂停与重启

    在手机游戏当中,会碰到“强制暂停”,如:锁屏、接电话或短信之类的。如果“强制暂停”时间过长,网络游戏有时得重新登录...

  • Scrapy的暂停和重启及采坑记录

    Scrapy的暂停和重启有两种方式:官方文档介绍、中文文档一、命令行方式: 两个spider_name即为爬虫名称...

  • python爬虫框架Scrapy

    爬虫框架Scrapy(二) 使用框架Scrapy开发一个爬虫只需要四步:创建项目:scrapy startproj...

网友评论

    本文标题:scrapy进阶开发(二):暂停与重启

    本文链接:https://www.haomeiwen.com/subject/angnxftx.html