美文网首页
CrawlSpider

CrawlSpider

作者: 背对背吧 | 来源:发表于2019-01-07 23:17 被阅读0次

    CrawlSpider
    1.创建项目
    scrapy startproject + 项目名称
    2.cd spider
    3.scrapy genspider -t ceawl 名称 + 域
    scrapy genspider -t crawl qidian qidian.com

    1).继承的类
    2).rules
         RULE
            linkExtroct
    3).不能用parse方法
    4).parse_start_url
    

    下载中间件:处于引擎和下载起之间

    反爬措施:
    1.基于请求头的反爬(合理构建请求头)(请求头参数User-Agent Referer cookie,常见状态码,常见的请求方式)
    2.基于cookie的反爬(cookie池,文件存储,数据库存储【需要登录注册信息时候,需要cookie信息才会用到】)
    3.基于IP的反爬(代理,代理的原理,代理怎么获取,代理如何检测,代理池)
    4.基于动态加载的网页(ajax,js,jq)(seleium、无头,有头浏览器?selenium)
    5.关于数据加密?(js,app,web网页)

    下载中间件的方法
    @classmethod
    def from_crawler(cls,crawler)

    def process_request(self,request,spider)
    所有的request请求在交给下载器之前都会经过这个方法
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
    
    def process_response(self,request,response,spider)
    所有的响应结果会经过这个方法
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
    
    def process_exception(self,request,exception,spider)
    #处理异常错误
    
    中间件:
    User-Agent
    Cookies
    IP
    Selenium
    
    激活中间件(settings.py):中间件后面的数值越小,优先级越高
    DOWNLOADER_MIDDLEWARES = {
       # 'downloadmiddlerware.middlewares.DownloadmiddlerwareDownloaderMiddleware': 543,
       # 'downloadmiddlerware.middlewares.UserAgentDownloadMiddlerware':543,
         'downloadmiddlerware.middlewares.SeleniumDownloadMiddlerWare':543,
    }
    

    下载cookie中间件视为了 在每次发起请求是可以携带多个不同的用户发起请求
    setting.py
    COOKIE = [
    {'cookie1':'xxxxx'},
    {'cookie2':'xxxxx'},
    {'cookie3':'xxxxx'},
    {'cookie4':'xxxxx'}
    ]

    scrapy并不支持动态网页的加载
    设置selenium中间件
    class SeleniumDownloadXXXXX(object):
    #设置浏览器加载
    self.drive = webdriver.Chrome(
    executable_path=''
    )
    self.drive.set_page_load_timeout(10)
    def process_request(self,request,spider)

    关于爬虫的断电爬取:
    scrapy crawl 项目名称 -s JOBDIR=crawls/爬虫名称 项目路径
    request.queue:保存的请求的任务队列
    request.seen:保存的是指纹
    spider.status:爬虫运行的状态

    scrapy settings.py设置文件(相关参数)

    分布式

    pip3 install scrapy-redis

    修改设置文件
    (1)#设置去重组件,使用的是scrapy_redis的去重组件,而不再使用scrapy框架

    自己的去重组件了

    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    (2)#设置调度器,使用的是scrapy_redis重写的调度器,而不再使用scrapy框架

    自带的调度器了

    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    (3)#可以实现断点爬取(请求的记录不会丢失,会存储在redis数据库中,

    不会清除redis的任务队列)

    SCHEDULER_PERSIST = True

    (4)#设置任务队列的模式(三选一)

    SpiderPriorityQueue是scrapy_redis默认使用的队列模式

    (有自己的优先级)

    SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

    使用了队列的形式,任务先进先出

    SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"

    采用了栈的形式,任务先进后出

    SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

    (5)

    实现这个管道,可以将爬虫端获取的item数据,统一保存

    在redis数据库中

    'scrapy_redis.pipelines.RedisPipeline': 400,

    (6)

    指定要存储的redis数据库的主机ip

    REDIS_HOST = '127.0.0.1'

    指定redis数据库主机的端口

    REDIS_PORT = 6379

    "xcfCrawlSpider:requests":存储的是请求的request对象
    "xcfCrawlSpider:items":存储的爬虫端获取的items数据
    "xcfCrawlSpider:dupefilter":存储的指纹(为了实现去重)
    127.0.0.1:6379> type xcfCrawlSpider:requests
    zset
    127.0.0.1:6379> type xcfCrawlSpider:items
    list
    127.0.0.1:6379> type xcfCrawlSpider:dupefilter
    set

    第一中情况:只设置settings.py文件,并没有实现分布式,知识使用了sctapy_redis的数据存储和去重功能

    第二中情况:实现通用爬虫的分布式爬虫
    from scrapy_redis.spiders import RedisCrawlSpider

    #继承制:RedisCrawlSpider
    class MyCrawler(RedisCrawlSpider):
        """Spider that reads urls from redis queue (myspider:start_urls)."""
        name = 'mycrawler_redis'
        allowed_domains = ['dmoz.org']
        #缺少了start_url,多了redis_key:根据redis_key从redis
        #数据库中获取任务
        redis_key = 'mycrawler:start_urls'
    
    
    启动爬虫:scrapy crawl 爬虫名称
    
    现象:爬虫处于等待状态
    
    需要设置起始任务:
    lpush mycrawler:start_urls 目标url
    

    第三中情况:实现scrpy.spider爬虫的分布式爬虫

    from scrapy_redis.spiders import RedisSpider

    #继承制:RedisSpider
    class MyCrawler(RedisSpider):
        """Spider that reads urls from redis queue (myspider:start_urls)."""
        name = 'mycrawler_redis'
        allowed_domains = ['dmoz.org']
        #缺少了start_url,多了redis_key:根据redis_key从redis
        #数据库中获取任务
        redis_key = 'mycrawler:start_urls'
    
    
    启动爬虫:scrapy crawl 爬虫名称
    
    现象:爬虫处于等待状态
    
    需要设置起始任务:
    lpush mycrawler:start_urls 目标url
    

    dmoz.py

    相关文章

      网友评论

          本文标题:CrawlSpider

          本文链接:https://www.haomeiwen.com/subject/ibrmrqtx.html