提高爬虫性能:
提高性能具体可以从下列着手,但是具体问题具体分析,不是每个爬虫都适用:
1、提高并发能力:
并发是指scrapy同时处理的request的数量,默认的全局并发限制为16,可增加这个值,增加多少取决于爬虫占CPU多少,设置前最好测试一下,一般占在80-90%为好
CONCURRENT_REQUESTS = num
2、降低log级别:
当调试程序完毕后,可以不适用DEBUG log级别,达到减少CPU使用率
LOG_LEVEL = 'INFO'
3、禁止cookies:
禁止cookies可以减少CPU使用率以及爬虫在内存中记录的踪迹
COOKIES_ENABLED = False
4、禁止重试:
对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
RETRY_ENABLED = False
5、减少下载超时:
减小下载超时能让卡住的连接能被快速的放弃并解放处理其他站点的能力
DOWNLOAD_TIMEOUT = num
网友评论