scrapy设置时间间隔

作者: BlueCat2016 | 来源:发表于2017-05-02 19:59 被阅读342次

    当使用<a href='http://wsitren.com'>scrapy</a>大规模爬取某一站点的页面时,有时候会因爬取过于频繁而被封IP,导致出现400等错误。

    此时的解决思路之一就是让蜘蛛在访问网址中间休息1~2秒。

    还有就是配置User Agent,尽量轮换使用不同的UserAgent去抓取网页

    在Scrapy项目的settings.py中,添加如下设置:

    DOWNLOAD_DELAY = 2
    RANDOMIZE_DOWNLOAD_DELAY = True
    USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
    COOKIES_ENABLED = True
    

    相关文章

      网友评论

        本文标题:scrapy设置时间间隔

        本文链接:https://www.haomeiwen.com/subject/vnrhtxtx.html