美文网首页python爬虫
爬虫基础系列urllib——代理IP(6)

爬虫基础系列urllib——代理IP(6)

作者: 猛犸象和剑齿虎 | 来源:发表于2019-05-06 06:10 被阅读1次
    1920664-0c61644217f76c3a.jpg

    代理ip

    • 反爬虫机制2,如果一直用同一个ip进行爬虫,反扒机制将禁止,所以通过伪装ip以及其他信息来访问网站。
    • ip 我们在日常生活中,还是比较熟悉的,简单来说每台电脑都有一个ip地址,用户通过ip地址访问网站。

    创建代理IP

    • 与HTTP代理类似,代理IP也通过request.build_opener()方法创建。通过多个ip随机取出ip对网站进行访问。
    • ip地址同样可以在网上找到免费的ip,但大都不能用,收费型ip用在项目式爬虫中,项目型爬虫采集大量的ip地址,不涉及爬取几十万次的项目,用不到代理ip。
      完整代码:
    #使用代理ip
    import random
    from urllib import request
    #ip地址网上分收费与免费的代理ip西刺代理网站找免费的代理ip
    #182.88.129.195     8123
    #将获取的ip地址装入列表(字典形式的列表)
    #项目型爬虫采集大量的ip地址,不涉及爬取几十万次的项目,用不到代理ip
    #免费的ip大多不能用
    
    proxylist=[
        {"http":"59.62.164.212:9999"},
        {"http":"183.47.2.201:30278"}
    ]
    #随机取值
    proxy=random.choice(proxylist)
    print(proxy)
    #构建代理处理器对象
    proxyHandler=request.ProxyHandler(proxy)
    #处理代理请求
    #创建自定义的opener
    opener=request.build_opener(proxyHandler)
    #创建请求对象
    req=request.Request("http://www.baidu.com")
    res=opener.open(req)
    print(res.read())
    

    相关文章

      网友评论

        本文标题:爬虫基础系列urllib——代理IP(6)

        本文链接:https://www.haomeiwen.com/subject/xitxoqtx.html