美文网首页
python的urlib库(代理&请求头)

python的urlib库(代理&请求头)

作者: 特特小哥哥 | 来源:发表于2019-04-13 14:56 被阅读0次

    request.Request类

    如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现,比如增加一个user-agent,
    示例代码:

    from urllib import request,parse
    url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2767.400',
    'Referer':'https://www.lagou.com/jobs/list_python%E7%88%AC%E8%99%AB?oquery=python&fromSearch=true&labelWords=relative',
    'Connection':'keep-alive'}
    data = {
    'first':'true',
    'pn': 1,
    'kd':'python'}
    req = request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),method='POST')
    resp=request.urlopen(req)
    print(resp.read().decode('utf-8'))
    

    ProxyHandler处理器(代理设置)

    很多网站会监测某一个段时间某个IP的访问次数过多不是正常人,他会禁用这个IP,所以需要设置代理服务器,就算IP被禁了还能继续爬。

    1. 代理的原理:在请求目的的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的网站的数据后,在转发给我们的代码
    2. http:httpbin.rog:这个网站可以方便的查看http请求的一些参数
    3. 在代码中使用代理:
    • 使用urllib.request.ProxyHandler传入一个代理,这个代理是一个字典,字典的key依赖于代理服务器能够接受的类型,一般是http或者https,值是ip:port
    • 使用上一步创建的handler,以及request.build_opener创建一个opener对象。
    • 使用上一步创建的opener,调用open函数,发起请求
      示例代码如下:
    from urllib import request
    #没有使用代理url = 'http://httpbin.org/ip'# resp=request.urlopen(url)# print(resp.read())#使用代理#1.使用proxyHandler.传入代理handlerhandler = request.ProxyHandler({"http":"183.129.207.80:12085"})
    #2.使用上面的handler构建一个openeropener = request.build_opener(handler)
    #3.使用opener去发送请求resp=opener.open(url)
    print(resp.read())
    

    相关文章

      网友评论

          本文标题:python的urlib库(代理&请求头)

          本文链接:https://www.haomeiwen.com/subject/ccalwqtx.html