Python数据分析与挖掘之爬虫防屏蔽手段代理服务器

作者: 我是Python小白 | 来源:发表于2017-12-21 09:21 被阅读81次

什么是代理服务器

所谓代理服务器，是一个处于我们与互联网中间的服务器，如果使用代
理服务器，我们浏览信息的时候，先向代理服务器发出请求，然后由代
理服务器向互联网获取信息，再返回给我们。

使用代理服务器进行爬取网页实战

使用代理服务器进行信息爬取，可以很好的解决IP限制的问题。

方法一

import urllib
# 39.82.135.164:8118
def useproxy(url,proxy_addr):
    proxy = urllib.request.ProxyHandler({"http":proxy_addr})
    opner = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opner) # 添加为全局
    data = urllib.request.urlopen(url,timeout=5).read().decode("utf-8","ignore")
    return data

print(useproxy("http://www.baidu.com","61.135.217.7:80"))

方法二

import urllib.request

def useproxy(url,proxy_addr):
    proxy_handler = urllib.request.ProxyHandler({
    'http': proxy_addr
    })
    opener = urllib.request.build_opener(proxy_handler)
    data = opener.open(url).read().decode("utf-8","ignore")
    return data

print(useproxy("http://www.baidu.com","61.135.217.7:80"))

网友评论

本文标题：Python数据分析与挖掘之爬虫防屏蔽手段代理服务器

本文链接：https://www.haomeiwen.com/subject/ctyowxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python数据分析与挖掘之爬虫防屏蔽手段代理服务器

什么是代理服务器

使用代理服务器进行爬取网页实战

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读