美文网首页
一般爬虫如何改造为通用爬虫

一般爬虫如何改造为通用爬虫

作者: 顶尖少爷 | 来源:发表于2019-03-01 15:28 被阅读0次

通用爬虫的特征

  1. 其爬取大量(一般来说是无限)的网站而不是特定的一些网站。
  2. 其不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的。相反,其会限制爬取的时间及数量。
  3. 其在逻辑上十分简单(相较于具有很多提取规则的复杂的spider),数据会在另外的阶段进行后处理(post-processed)
  4. 其并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重,每个站点爬取速度很慢但同时爬取很多站点)。

如何将一般爬虫改造为通用爬虫

修改setting文件

#1. 增加全局并发数:
CONCURRENT_REQUESTS = 100
#2.降低log级别
LOG_LEVEL = 'INFO'
#3.禁止cookies
COOKIES_ENABLED = False
#4.禁止重试
RETRY_ENABLED = False
#5.减小下载超时
DOWNLOAD_TIMEOUT = 15
#6.禁止重定向
REDIRECT_ENABLED = False
#7.启用”ajax Crawlabel Pages” 爬取
AJAXCRAWL_ENABLED = True

相关文章

网友评论

      本文标题:一般爬虫如何改造为通用爬虫

      本文链接:https://www.haomeiwen.com/subject/zsbduqtx.html