1920664-0c61644217f76c3a.jpg
代理ip
- 反爬虫机制2,如果一直用同一个ip进行爬虫,反扒机制将禁止,所以通过伪装ip以及其他信息来访问网站。
- ip 我们在日常生活中,还是比较熟悉的,简单来说每台电脑都有一个ip地址,用户通过ip地址访问网站。
创建代理IP
- 与HTTP代理类似,代理IP也通过request.build_opener()方法创建。通过多个ip随机取出ip对网站进行访问。
- ip地址同样可以在网上找到免费的ip,但大都不能用,收费型ip用在项目式爬虫中,项目型爬虫采集大量的ip地址,不涉及爬取几十万次的项目,用不到代理ip。
完整代码:
#使用代理ip
import random
from urllib import request
#ip地址网上分收费与免费的代理ip西刺代理网站找免费的代理ip
#182.88.129.195 8123
#将获取的ip地址装入列表(字典形式的列表)
#项目型爬虫采集大量的ip地址,不涉及爬取几十万次的项目,用不到代理ip
#免费的ip大多不能用
proxylist=[
{"http":"59.62.164.212:9999"},
{"http":"183.47.2.201:30278"}
]
#随机取值
proxy=random.choice(proxylist)
print(proxy)
#构建代理处理器对象
proxyHandler=request.ProxyHandler(proxy)
#处理代理请求
#创建自定义的opener
opener=request.build_opener(proxyHandler)
#创建请求对象
req=request.Request("http://www.baidu.com")
res=opener.open(req)
print(res.read())
网友评论