美文网首页
代理IP或者分布式爬虫:

代理IP或者分布式爬虫:

作者: bb2eef9c6b14 | 来源:发表于2017-06-17 20:29 被阅读113次

代理IP或者分布式爬虫:

如果对页的爬虫的效率有要求,那就不能通过设定访问时间间隔的方法来绕过频率检查了。

代理IP访问可以解决这个问题。如果用100个代理IP访问100个页面,可以给网站造成一种有100个人,每个人访问了1页的错觉。这样自然而然就不会限制你的访问了。

代理IP经常会出现不稳定的情况。你随便搜一个“免费代理”,会出现很多网站,每个网站也会给你很多的代理IP,但实际上,真正可用的代理IP并不多。你需要维护一个可用的代理IP池,但是一个免费的代理IP,也许在你测试的时候是可以使用的,但是几分钟以后就失效了。使用免费代理IP是已经费时费力,而且很考验你运气的事情。

大家可以使用http://icanhazip.com/这个网站来检测你的代理IP是否设定成功。当你直接使用浏览器访问这个网站的时候,它会返回你的IP地址。如下图所示:

通过requests,我们可以设置代理访问网站,在requests的get方法中,有一个proxies参数,它接收的数据是一个字典,在这个字典中我们可以设置代理。

importrequestsproxies = {"http":"http://10.10.1.10:3128",#HTTP类型的代理"https":"http://10.10.1.10:1080"}#HTTPS类型的代理requests.get("http://example.org", proxies=proxies)

大家可以在requests的官方中文文档中看到关于设置代理的更多信息:http://docs.python-requests.org/zh_CN/latest/user/advanced.html#proxies

我在网上找了一些代理IP,如下图所示:

以上代理在我写这篇文档的时候经过测试是可以使用的,但是各位同学在看这篇文档的时候,他们可能已经失效了。

我选择第一个HTTP类型的代理来给大家做测试,运行效果如下图所示:

从上图可以看出,我们成功通过了代理IP来访问网站。

我们还可以使用分布式爬虫。分布式爬虫会部署在多台服务器上,每个服务器上的爬虫统一从一个地方拿网址。这样平均下来每个服务器访问网站的频率也就降低了。由于服务器是掌握在我们手上的,因此实现的爬虫会更加的稳定和高效。这也是我们这个课程最后要实现的目标。

相关文章

  • 代理IP或者分布式爬虫:

    代理IP或者分布式爬虫: 如果对页的爬虫的效率有要求,那就不能通过设定访问时间间隔的方法来绕过频率检查了。 代理I...

  • Python爬虫代理池

    爬虫代理IP池 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的...

  • Python爬虫代理池

    爬虫代理IP池 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的...

  • 如何给自己搭建一个爬虫代理IP池?

    本文关键词:爬虫代理IP池,稳定的爬虫代理ip,搭建代理ip池 在这篇文章之前, 应该不少人都看过很多搭建代理ip...

  • Python实现爬取可用代理IP

    在实现爬虫时,动态设置代理IP可以有效防止反爬虫,但对于普通爬虫初学者需要在代理网站上测试可用代理IP。由于手动测...

  • Python爬虫程序:实现妹子图网站多线程爬取

    写了一个爬取妹子图网站的爬虫,供大家参考交流使用 关于怎样建立IP代理池,使用代理进行爬虫,或者其他程序问题,关注...

  • 如何利用飞蚁代理ip池反反爬虫?

    本文关键词:飞蚁代理ip,代理ip池,反爬虫IP池 一般而言,抓取稍微正规一点的网站,都会有反爬虫的制约。反爬虫主...

  • 数据采集项目中常见爬虫代理测试分析

    数据采集项目中常见爬虫代理测试分析 淘宝、百度找一遍,发现HTTP代理、爬虫代理、爬虫IP的产...

  • 反爬虫微信文章(总结)

    在爬虫时,某些网站会有封ip的现象,所以选择利用代理伪装我们的ip进行爬虫请求,但进行爬虫时可能需要很多ip,这时...

  • Python:爬虫利器_自动更换ip

    爬虫利器:自动更换ip 使用云vps定时或不定时进行重新拨号,达到更换ip的目的。代理软件使用squid或者tin...

网友评论

      本文标题:代理IP或者分布式爬虫:

      本文链接:https://www.haomeiwen.com/subject/qgebqxtx.html