scrapy突破反爬虫措施

作者: zhangcapricorn | 来源:发表于2017-11-24 17:32 被阅读0次

user-agent池

构建cookie池

ip代理来解决

禁用cookie，因为cookie会跟踪爬虫的访问过程。

setting.py中设置：COOKIES_ENABLED = False

自动限速：

访问页面间隔随机

ip代理池

Tor代理：洋葱路由器

分布式下载器Crawlera : 收费内容

google cache ：网页快照

scrapy设置下载延时与自动限速：

setting.py :

DOWNLOAD_DELAY = 2

RANDOM_DOWNLOAD_DELAY = true

自动限速扩展：

该扩展会根据scrapy服务器和爬取网站的负载自动限制爬取速度。

网友评论

本文标题：scrapy突破反爬虫措施

本文链接：https://www.haomeiwen.com/subject/qceydttx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！