Python数据挖掘03-requests库

作者: 千山万水 | 来源:发表于2016-11-03 22:50 被阅读118次

    相比Python内置的urllib和urllib2库,第三方的requests库提供了更强大的网络请求功能,使用起来也更方便。
    测试一下:

    import requests  
    resp = requests.get('http://baidu.com')
    print resp.status_code
    # 200
    

    requests可以发送各种请求:

    r = requests.post("http://httpbin.org/post")
    r = requests.put("http://httpbin.org/put")
    r = requests.delete("http://httpbin.org/delete")
    r = requests.head("http://httpbin.org/get")
    r = requests.options("http://httpbin.org/get")
    

    GET请求

    最基本的GET请求可以直接用get方法

    r = requests.get("http://httpbin.org/get")
    

    如果想要加参数,可以利用 params 参数

    import requests
    payload = {'key1': 'value1', 'key2': 'value2'}
    r = requests.get("http://httpbin.org/get", params=payload)
    print r.url
    

    运行结果

    http://httpbin.org/get?key2=value2&key1=value1
    

    通过headers参数可以增加请求头中的headers信息

    import requests
    payload = {'key1': 'value1', 'key2': 'value2'}
    headers = {'content-type': 'application/json'}
    r = requests.get("http://httpbin.org/get", params=payload, headers=headers)
    print r.url
    

    POST请求

    对于 POST 请求来说,一般需要为它增加一些参数。最基本的传参方法可以利用 data 这个参数。

    import requests
    payload = {'key1': 'value1', 'key2': 'value2'}
    r = requests.post("http://httpbin.org/post", data=payload)
    print r.text
    

    代理

    为requests套上一层代理的做法也非常简单:

    import requests
    proxies = {"https": "http://41.118.132.69:4433"}
    r = requests.post("http://httpbin.org/post", proxies=proxies)
    print r.text
    

    Get、Post以及其他请求均可添加代理。

    Cookies

    如果一个响应中包含了cookie,那么我们可以利用 cookies 变量来获取:

    import requests
    url = 'http://example.com'
    r = requests.get(url)
    print r.cookies
    print r.cookies['example_cookie_name']
    

    另外可以利用 cookies 变量来向服务器发送 cookies 信息:

    import requests
    url = 'http://httpbin.org/cookies'
    cookies = dict(cookies_are='working')
    r = requests.get(url, cookies=cookies)
    print r.text
    

    Session

    以上的每次请求其实都是发起了一个新的请求,也就是相当于我们每个请求都用了不同的浏览器单独打开的效果。也就是它并不是指的一个会话,即使请求的是同一个网址。不在一个会话中,无法获取 cookies,那么在一些站点中,我们需要保持一个持久的会话怎么办呢?就像用一个浏览器逛淘宝一样,在不同的选项卡之间跳转,这样其实就是建立了一个长久会话。
    服务器端通过session来区分不同的用户请求(浏览器会话),requests的会话对象是用来模拟这样的操作的,比如可以跨请求保持某些参数:就像你在访问微博的时候,不需要每次翻页都重新登录一次。

    session = requests.Session()
    session.post('http://test.cn/login', data={'user': 'user', 'pass': 'mypassword'})
    # 登录成功则可以发布文章了
    session.put('http://test.cn/new', data={'title': 'title of article', 'data': 'content'})
    

    既然会话是一个全局的变量,那么我们肯定可以用来全局的配置了。

    import requests
    s = requests.Session()
    s.headers.update({'x-test': 'true'})
    r = s.get('http://httpbin.org/headers', headers={'x-test2': 'true'})
    print r.text
    

    通过 s.headers.update 方法设置了 headers 的变量。然后我们又在请求中设置了一个 headers,那么会出现什么结果?很简单,两个变量都传送过去了。
    如果get方法传的headers 同样也是 x-test,它会覆盖掉原来的设置:

    r = s.get('http://httpbin.org/headers', headers={'x-test': 'true'})
    

    如果不想要全局配置中的一个变量,设置为 None 即可:

    r = s.get('http://httpbin.org/headers', headers={'x-test': None})
    

    响应内容

    请求发送成功的话会得到HTTP response,那么如何提取里面的内容呢?
    requests会自动对响应内容编码,所以就可以通过resp.text取出响应文本了。对于别等响应内容(文件、图片、...),则可以通过resp.content取出来。对于json内容,也可以通过resp.json()来取,或者采用如下的方法提取:

    # resp.txt为json文件
    jdict = json.loads(resp.text)
    # 提取具体内容
    pageSize = jdict["content"]["pageSize"]
    

    参考文章

    Python爬虫利器一之Requests库的用法
    Python requests库介绍

    相关文章

      网友评论

        本文标题:Python数据挖掘03-requests库

        本文链接:https://www.haomeiwen.com/subject/eclbuttx.html