为什么要用代理池?
许多网站有专门的反爬虫措施,可能遇到封IP等问题。遇到这种问题时,就需要用各种代理来伪装IP请求网站,防止封IP问题导致爬虫不能成功。互联网上公开了大量免费代理,利用好资源。维护代理池把一些不好用的剔除,好用的供爬虫使用。通过定时的检测维护同样可以得到多个可用代理。
代理池的要求
- 多站抓取,异步检测
- 定时筛选,持续更新
- 提供接口,易于获取
代理池架构
抓取器(Internet) --> 过滤器 --> 代理队列 --> [API, 定时检测器]
许多网站有专门的反爬虫措施,可能遇到封IP等问题。遇到这种问题时,就需要用各种代理来伪装IP请求网站,防止封IP问题导致爬虫不能成功。互联网上公开了大量免费代理,利用好资源。维护代理池把一些不好用的剔除,好用的供爬虫使用。通过定时的检测维护同样可以得到多个可用代理。
抓取器(Internet) --> 过滤器 --> 代理队列 --> [API, 定时检测器]
本文标题:Flask+Redis维护代理池
本文链接:https://www.haomeiwen.com/subject/yiwodftx.html
网友评论