美文网首页爬虫基本知识
urllib代理服务器设置

urllib代理服务器设置

作者: 听城 | 来源:发表于2017-08-08 17:34 被阅读10次

    ip代理的一个网站,如果代理信息有误或者代理无法使用则会发生被远程主机拒绝访问等错误

    #1.首先建立一个名为use_proxy的自定义函数,该函数的主要实现使用代理服务器来爬取url的功能
    #2.该函数有两个参数,一个为代理地址,另一个为url地址
    #3.使用urllib.request.ProxyHandler()来设置对用的代理服务器信息
    #4. 使用urllib.request.install_opener()创建全局opener对象
    import urllib.request
    
    def use_proxy(proxy_addr,url):
        proxy = urllib.request.ProxyHandler({'http':proxy_addr})
        opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
        urllib.request.install_opener(opener)
        data = urllib.request.urlopen(url).read().decode('utf-8')
        return data
    
    proxy_addr = '60.178.1.122:8081'
    data = use_proxy(proxy_addr,'http://www.baidu.com')
    print(len(data))
    

    相关文章

      网友评论

        本文标题:urllib代理服务器设置

        本文链接:https://www.haomeiwen.com/subject/wqfxrxtx.html