美文网首页
一般爬虫如何改造为通用爬虫

一般爬虫如何改造为通用爬虫

作者: 顶尖少爷 | 来源:发表于2019-03-01 15:28 被阅读0次

    通用爬虫的特征

    1. 其爬取大量(一般来说是无限)的网站而不是特定的一些网站。
    2. 其不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的。相反,其会限制爬取的时间及数量。
    3. 其在逻辑上十分简单(相较于具有很多提取规则的复杂的spider),数据会在另外的阶段进行后处理(post-processed)
    4. 其并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重,每个站点爬取速度很慢但同时爬取很多站点)。

    如何将一般爬虫改造为通用爬虫

    修改setting文件

    #1. 增加全局并发数:
    CONCURRENT_REQUESTS = 100
    #2.降低log级别
    LOG_LEVEL = 'INFO'
    #3.禁止cookies
    COOKIES_ENABLED = False
    #4.禁止重试
    RETRY_ENABLED = False
    #5.减小下载超时
    DOWNLOAD_TIMEOUT = 15
    #6.禁止重定向
    REDIRECT_ENABLED = False
    #7.启用”ajax Crawlabel Pages” 爬取
    AJAXCRAWL_ENABLED = True
    

    相关文章

      网友评论

          本文标题:一般爬虫如何改造为通用爬虫

          本文链接:https://www.haomeiwen.com/subject/zsbduqtx.html