美文网首页python爬虫日记本python 爬虫爬虫进化日记
爬虫笔记(七) - Scrapy_redis 分布式爬虫尝试

爬虫笔记(七) - Scrapy_redis 分布式爬虫尝试

作者: Spareribs | 来源:发表于2017-05-24 21:09 被阅读148次

    本次只是Scrapy_redis的一次尝试,对于分布式爬虫,还是个小白,如果有什么不对的地方请留言
    分布式爬虫代码cuiqingcai_redis
    目标站点:www.cuiqingcai.com(作者不会打我吧~~~)
    不说那么多废话,我们直接开始

    简单的拓扑图

    简单拓扑图

    环境需要

    install scrapy==1.3.3
    pymysql==0.7.11
    scrapy_redis==0.6.8
    其实除了上面的python的库外还需要去了解下:

    1. redis的使用
    2. 数据库的使用:权限、中文乱码等

    时间对比分析(用数据说话)

    由于没有经验,本次我只是手动复制数据,下次修改博文我截图分析
    scrapy 使用时间:平均 120s左右
    windwos下面执行scrapy_redis 使用时间: 平均73s左右
    windows + 1台虚拟机 执行scrapy_redis 使用时间 :平45s左右

    (占位---待继续更新)

    使用教程和方法

    从scrapy crawlspider 到 scrapy_redis crwalspider
    给redis添加键值

    lpush myspider:start_urls http://hz.58.com/pbdn/0/
    

    redis 在执行过程中添加的键值和键值分析

    redis

    requests在爬虫结束时会消失

    (占位---待继续更新)
    以上都是我的跟人观点,如果有不对,或者有更好的方法,欢迎留言指正~~~(持续更新中)

    相关文章

      网友评论

        本文标题:爬虫笔记(七) - Scrapy_redis 分布式爬虫尝试

        本文链接:https://www.haomeiwen.com/subject/ccgoxxtx.html