request.Request类
如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现,比如增加一个user-agent,
示例代码:
from urllib import request,parse
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2767.400',
'Referer':'https://www.lagou.com/jobs/list_python%E7%88%AC%E8%99%AB?oquery=python&fromSearch=true&labelWords=relative',
'Connection':'keep-alive'}
data = {
'first':'true',
'pn': 1,
'kd':'python'}
req = request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),method='POST')
resp=request.urlopen(req)
print(resp.read().decode('utf-8'))
ProxyHandler处理器(代理设置)
很多网站会监测某一个段时间某个IP的访问次数过多不是正常人,他会禁用这个IP,所以需要设置代理服务器,就算IP被禁了还能继续爬。
- 代理的原理:在请求目的的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,在转发给我们的代码
- http:httpbin.rog:这个网站可以方便的查看http请求的一些参数
- 在代码中使用代理:
- 使用
urllib.request.ProxyHandler
传入一个代理,这个代理是一个字典,字典的key依赖于代理服务器能够接受的类型,一般是http
或者https
,值是ip:port
。 - 使用上一步创建的
handler
,以及request.build_opener
创建一个opener
对象。 - 使用上一步创建的
opener
,调用open
函数,发起请求
示例代码如下:
from urllib import request
#没有使用代理url = 'http://httpbin.org/ip'# resp=request.urlopen(url)# print(resp.read())#使用代理#1.使用proxyHandler.传入代理handlerhandler = request.ProxyHandler({"http":"183.129.207.80:12085"})
#2.使用上面的handler构建一个openeropener = request.build_opener(handler)
#3.使用opener去发送请求resp=opener.open(url)
print(resp.read())
网友评论