美文网首页基础知识
Redis + Scrpay 分布式爬虫部署

Redis + Scrpay 分布式爬虫部署

作者: 马本不想再等了 | 来源:发表于2019-03-22 12:42 被阅读108次

    一、Redis安装

    1.1在Liunx环境下安装Redis

    以ubuntu为例:
    1.安装:sudo apt-get install redis-server
    2.卸载:sudo apt-get purge --auto-remove redis-server
    3.启动:redis安装完成后,默认会自动启动,可以通过ps aux|grep redis查看状态
    手动启动:sudo service redis-server start
    4.停止:sudo service redis-server stop

    1.2在Windows环境下安装Redis

    以win7为例:
    1.下载与安装:redis官方是不支持windows操作系统的。但是微软的开源部门将redis移植到了windows上。因此下载地址不是在redis官网上。而是在github上:https://github.com/MicrosoftArchive/redis



    选择合适系统的版本下载,打开文件安装完成即可
    2.运行:进入到redis安装所在的路径然后执行redis-server.exe redis.windows.conf就可以运行了。

    3.连接:redis和mysql以及mongo是一样的,都提供了一个客户端进行连接。输入命令redis-cli(前提是redis安装路径已经加入到环境变量中了)就可以连接到redis服务器了。
    连接成功

    二、虚拟机(其他机器)访问本机Redis服务器

    想要让其他机器访问本机的redis服务器。那么要修改redis.windows-service.conf的配置文件,将bind改成bind [自己的ip地址或者0.0.0.0],其他机器才能访问。
    注:bind绑定是本机网卡的ip地址,如果有多块网卡,可以绑定多个ip地址,绑定为0.0.0.0 意味着其他机器可以通过本机所有ip地址进行访问。
    我的本机ip只有一个,所以0.0.0.0就是只包括了下面这一个ip地址

    本机redis服务器地址
    虚拟机(其他机器)连接时执行redis-cli -h 服务器的ip地址 -p 6379
    虚拟机连接成功

    三、在Linux上安装Scrapy

    2.1在windows上安装Scrapy(略)

    本文默认项目Scrapy项目已经在windows上开发完成

    2.2在ubuntu上安装Scrapy之前,需要先安装以下依赖

    sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
    cd到项目目录下,pip freeze > requirements.txt生成项目开发环境所需要的包,

    requirements.txt
    将requirements.txt发送给服务器
    先进入一个文件夹“文档”,在这个文件夹下使用rz命令来读取本文件
    读取requirements.text
    读取成功
    pip install -r requirements.txt 安装开发环境所需要的包

    四、改写Scrapy-Redis分布式爬虫:

    要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了:

    1. 将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider;或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider
    2. 将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url,就是在redis中通过这个发送出去的。
    3. 在配置文件中增加如下配置:
        # Scrapy-Redis相关配置
        # 确保request存储到redis中
        SCHEDULER = "scrapy_redis.scheduler.Scheduler"
        # 确保所有爬虫共享相同的去重指纹
        DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
        # 设置redis为item pipeline
        ITEM_PIPELINES = {
            'scrapy_redis.pipelines.RedisPipeline': 300
        }
        # 在redis中保持scrapy-redis用到的队列,不会清理redis中的队列,从而可以实现暂停和恢复的功能。
        SCHEDULER_PERSIST = True
        # 设置连接redis信息
        REDIS_HOST = '127.0.0.1'
        REDIS_PORT = 6379
    

    五、运行爬虫:

    1.  在爬虫服务器上。进入爬虫文件所在的路径,然后输入命令:`scrapy runspider [爬虫名字]`。
    2.  在`Redis`服务器上,推入一个starturl链接:`redis-cli> lpush [redis_key] start_url`开始爬取。
    

    相关文章

      网友评论

        本文标题:Redis + Scrpay 分布式爬虫部署

        本文链接:https://www.haomeiwen.com/subject/wxflvqtx.html