美文网首页
Python3的第三方Requests库

Python3的第三方Requests库

作者: 艾胖胖胖 | 来源:发表于2018-10-29 15:11 被阅读0次

    一、介绍

    Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3!

    二、安装

    • pip安装
    pip install requests
    
    • GitHub下载安装
    $ git clone git://github.com/kennethreitz/requests.git
    $ cd requests
    $ python setup.py install
    

    三、使用

    Request库的几个主要方法

    • requests.request():构造一个请求,支持以下各种方法
    • requests.get():获取html的主要方法
    • requests.head():获取html头部信息的主要方法
    • requests.post():向html网页提交post请求的方法
    • requests.put():向html网页提交put请求的方法
    • requests.patch():向html提交局部修改的请求
    • requests.delete():向html提交删除请求

    requests.get()

    # 具体参数
    requests.get(url,params,**kwargs)
    
    - url: 需要爬取的网站地址。
    - params: 参数,使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中 
    - **kwargs : 12个控制访问的参数 
    
    • 简单的使用
    import requests
     
    response = requests.get('https://www.baidu.com')    # 最基本的GET请求
    print(response .status_code)    # 获取返回状态
    
    • 12个**kwargs
    - data:字典,字节序或文件对象,重点作为向服务器提供或提交资源是提交。作为request的内容,与params不同的是,data提交的数据并不放在url链接里, 而是放在url链接对应位置的地方作为数据来存储。它也可以接受一个字符串对象。
    - json:json格式的数据, json合适在相关的html,http相关的web开发中非常常见, 也是http最经常使用的数据格式, 他是作为内容部分可以向服务器提交。
    - headers:字典是http的相关语,对应了向某个url访问时所发起的http的头i字段, 可以用这个字段来定义http的访问的http头,可以用来模拟任何我们想模拟的浏览器来对url发起访问。 
    - cookies:字典或CookieJar,指的是从http中解析cookie
    - auth:元组,用来支持http认证功能
    - files:字典, 是用来向服务器传输文件时使用的字段。
    - timeout: 用于设定超时时间, 单位为秒,当发起一个get请求时可以设置一个timeout时间, 如果在timeout时间内请求内容没有返回, 将产生一个timeout的异常。
    - proxies:字典, 用来设置访问代理服务器。
    - allow_redirects: 开关, 表示是否允许对url进行重定向, 默认为True。
    - stream: 开关, 指是否对获取内容进行立即下载, 默认为True。
    - verify:开关, 用于认证SSL证书, 默认为True。
    - cert: 用于设置保存本地SSL证书路径
    
    • 带参数的Get请求
    # 复杂的get请求
    import requests
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
    url = "https://www.baidu.com/s"
    params = {
        "ie":"utf-8",
        "kw":"校花"
    }
    
    r = requests.get(url=url,headers=headers,params=params)
    # get请求的参数用params形参来接收,接收的时候字典就行
    print(r.status_code)
    
    
    • 获取cookies
    import requests
     
    r = requests.get('http://www.google.com.hk/')
    print(r.cookies['NID'])
    print(tuple(r.cookies))
    

    对于某些需要登录才能访问的网站,获取到Cookies后,下次请求时我们可以携带Cookies进行网站的访问

    • 携带cookie
    import requests
     
    url = 'http://httpbin.org/cookies'
    cookies = {'testCookies_1': 'Hello_Python3', 'testCookies_2': 'Hello_Requests'}
    # 在Cookie Version 0中规定空格、方括号、圆括号、等于号、逗号、双引号、斜杠、问号、@,冒号,分号等特殊符号都不能作为Cookie的内容。
    r = requests.get(url, cookies=cookies)
    print(r.json())
    

    requests有一个Session对象可以用于保存会话。练习将使用Session对象来保存对话

    • 上传文件
    # 上传图片
    import requests
     
    url = 'http://127.0.0.1:5000/upload'
    files = {'file': open('./test.jpg', 'rb')}
    #files = {'file': ('test.jpg', open('/test.jpg', 'rb'))}     #显式的设置文件名
     
    r = requests.post(url, files=files)
    print(r.text)
    
    
    # 把字符串当成文件进行上传
    import requests
     
    url = 'http://127.0.0.1:5000/upload'
    files = {'file': ('test.txt', b'Hello Requests.')}     #必需显式的设置文件名
     
    r = requests.post(url, files=files)
    print(r.text)
    
    • 使用代理
    import requests
    
    proxies = {
      "http": "http://10.10.1.10:3128",
      "https": "http://10.10.1.10:1080",
    }
    
    requests.get("http://www.zhidaow.com", proxies=proxies)
    

    response的对象属性

    • 对象属性
    - status_code:请求的返回状态,若为200则表示请求成功。
    - text:响应内容的字符串形式,即返回的页面内容
    - encoding:从http header 中猜测的相应内容编码方式
    - apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)
    - content:响应内容的二进制形式返回
    
    • 使用
    >>> import requests
    >>> r=requests.get("http://www.baidu.com")
    >>> r.status_code
    200
    
    >>>  r.encoding
    'ISO-8859-1'
    
    >>> r.apparent_encoding
    'utf-8'
    
    >>> r.content
    '<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8>ipt> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">æ\x9b´å¤\x9a产å\x93\x81</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a com/ class=cp-feedback>æ\x84\x8fè§\x81å\x8f\x8dé¦\x88</a>&nbsp;京ICPè¯\x81030173å\x8f·&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'
    
    >>> r.encoding='utf-8'
    
    >>> r.text
    '<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta chref=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css="h读</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>意见反馈</a>&nbsp;京ICP证030173号&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'
    

    练习

    • 微博登录
    import requests
    
    # 主页url
    url = "https://weibo.cn/6370062528/info"
    # 登录接口
    login_url = "https://passport.weibo.cn/sso/login"
    
    # 请求头
    headers = {
        'Accept': '*/*',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
        'Host': 'passport.weibo.cn',
        'Origin': 'https://passport.weibo.cn',
        'Referer': 'https://passport.weibo.cn/signin/login?entry=mweibo&r=https%3A%2F%2Fweibo.cn%2F%3Fluicode%3D20000174&backTitle=%CE%A2%B2%A9&vt='
    
    }
    # 请求体
    data = {
        'username':'USERNAME',
        'password': 'PASSWORD',
        'savestate':'1',
        'r': 'https://weibo.cn/?luicode=20000174',
        'ec': '0',
        'pagerefer': 'https://weibo.cn/pub/?vt=',
        'entry': 'mweibo',
        'wentry':'',
        'loginfrom':'',
        'client_id':'',
        'code':'',
        'qq':'',
        'mainpageflag': '1',
        'hff':'',
        'hfp':''
    }
    
    # r = requests.post(url=login_url,data=data,headers=headers)
    # 【注意】requests无法保存会话信息
    
    # requests有一个Session对象可以用于保存会话。这样在我们登录完成后就可以再访问主页了。当然你也可以选择不使用Session来保存会话,而选择在登录完成后再访问主页的时候携带你的cookies。
    s = requests.Session()
    r = s.post(url=login_url,data=data,headers=headers)
    print(r.text)
    
    
    res = s.get(url=url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'})
    print(res.status_code)
    
    with open("weibo.html",'wb') as fp:
        fp.write(res.content)
    
    

    相关文章

      网友评论

          本文标题:Python3的第三方Requests库

          本文链接:https://www.haomeiwen.com/subject/zucbtqtx.html