美文网首页
Python数据分析与挖掘之爬虫防屏蔽手段代理服务器

Python数据分析与挖掘之爬虫防屏蔽手段代理服务器

作者: 我是Python小白 | 来源:发表于2017-12-21 09:21 被阅读81次

    什么是代理服务器

    所谓代理服务器,是一个处于我们与互联网中间的服务器,如果使用代
    理服务器,我们浏览信息的时候,先向代理服务器发出请求,然后由代
    理服务器向互联网获取信息,再返回给我们。

    使用代理服务器进行爬取网页实战

    使用代理服务器进行信息爬取,可以很好的解决IP限制的问题。

    • 方法一
    import urllib
    # 39.82.135.164:8118
    def useproxy(url,proxy_addr):
        proxy = urllib.request.ProxyHandler({"http":proxy_addr})
        opner = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
        urllib.request.install_opener(opner) # 添加为全局
        data = urllib.request.urlopen(url,timeout=5).read().decode("utf-8","ignore")
        return data
    
    print(useproxy("http://www.baidu.com","61.135.217.7:80"))
    
    • 方法二
    import urllib.request
    
    def useproxy(url,proxy_addr):
        proxy_handler = urllib.request.ProxyHandler({
        'http': proxy_addr
        })
        opener = urllib.request.build_opener(proxy_handler)
        data = opener.open(url).read().decode("utf-8","ignore")
        return data
    
    print(useproxy("http://www.baidu.com","61.135.217.7:80"))
    

    相关文章

      网友评论

          本文标题:Python数据分析与挖掘之爬虫防屏蔽手段代理服务器

          本文链接:https://www.haomeiwen.com/subject/ctyowxtx.html