美文网首页
scrapy突破反爬虫措施

scrapy突破反爬虫措施

作者: zhangcapricorn | 来源:发表于2017-11-24 17:32 被阅读0次

    user-agent池

    构建cookie池

    ip代理来解决

    禁用cookie,因为cookie会跟踪爬虫的访问过程。

    setting.py中设置:COOKIES_ENABLED = False

    自动限速:

        访问页面间隔随机

    ip代理池

    Tor代理:洋葱路由器

    分布式下载器Crawlera : 收费内容

    google cache :网页快照

    scrapy设置下载延时与自动限速:

         setting.py :

          DOWNLOAD_DELAY = 2

          RANDOM_DOWNLOAD_DELAY = true

    自动限速扩展:

          该扩展会根据scrapy服务器和爬取网站的负载自动限制爬取速度。

    相关文章

      网友评论

          本文标题:scrapy突破反爬虫措施

          本文链接:https://www.haomeiwen.com/subject/qceydttx.html