代理IP或者分布式爬虫：

作者: bb2eef9c6b14 | 来源:发表于2017-06-17 20:29 被阅读113次

代理IP或者分布式爬虫：
Python爬虫代理池
Python爬虫代理池
如何给自己搭建一个爬虫代理IP池？
Python实现爬取可用代理IP
Python爬虫程序：实现妹子图网站多线程爬取
如何利用飞蚁代理ip池反反爬虫？
数据采集项目中常见爬虫代理测试分析
反爬虫微信文章（总结）
Python：爬虫利器_自动更换ip

代理IP或者分布式爬虫：

如果对页的爬虫的效率有要求，那就不能通过设定访问时间间隔的方法来绕过频率检查了。

代理IP访问可以解决这个问题。如果用100个代理IP访问100个页面，可以给网站造成一种有100个人，每个人访问了1页的错觉。这样自然而然就不会限制你的访问了。

代理IP经常会出现不稳定的情况。你随便搜一个“免费代理”，会出现很多网站，每个网站也会给你很多的代理IP，但实际上，真正可用的代理IP并不多。你需要维护一个可用的代理IP池，但是一个免费的代理IP，也许在你测试的时候是可以使用的，但是几分钟以后就失效了。使用免费代理IP是已经费时费力，而且很考验你运气的事情。

大家可以使用http://icanhazip.com/这个网站来检测你的代理IP是否设定成功。当你直接使用浏览器访问这个网站的时候，它会返回你的IP地址。如下图所示：

通过requests，我们可以设置代理访问网站，在requests的get方法中，有一个proxies参数，它接收的数据是一个字典，在这个字典中我们可以设置代理。

importrequestsproxies = {"http":"http://10.10.1.10:3128",#HTTP类型的代理"https":"http://10.10.1.10:1080"}#HTTPS类型的代理requests.get("http://example.org", proxies=proxies)

大家可以在requests的官方中文文档中看到关于设置代理的更多信息：http://docs.python-requests.org/zh_CN/latest/user/advanced.html#proxies

我在网上找了一些代理IP，如下图所示：