美文网首页
Python requests模块初体验

Python requests模块初体验

作者: Picidae | 来源:发表于2017-12-27 16:22 被阅读0次
:python做爬虫具有非常大的优势,原生的urllib库提供了大量的API已方便爬虫开发,但是由于代码效率还有其他的第三方库,所以这里用的是 requests模块,这次咱们初探一下。

1.requests初体验

首先安装,由于python已经安装了pip,可以方便下载第三方模块,所以直接执行命令即可,如果没有安装参考这篇文章,执行命令

  sudo pip install requests

2. 简单访问网页

1.这里咱们需要使用requests库进行访问网页了,首先要引入

  import requests
  1. 建立请求
    requests中的访问API很全面,我们可以以下面的方式建立请求
  r = requests.get("http://www.baidu.com")
  r = requests.put("http://ww.baidu.org/put")
  r = requests.delete("http://ww.baidu.org/delete")
  r = requests.head("http://ww.baidu.org/get")
  r = requests.options("http://ww.baidu.org/get")
  r = requests.post('https"//ww.baidu.com')
// python会返回一个对象,并且赋值给r
  1. 查看是否请求成功
    由于我们需要知道是否请求网页成功,所以需要查看对方服务器返回的code字段,所以我们可以查看一下
  r.status_code 
  //  200

此时如果r.status_code 为200则代表请求成功。

  1. 查看返回的文本信息
  r.text

r.text就是网页的内容了,当然咱们可以打印一下。

  1. 将网页内容转码,指定为咱们需要的编码
  r.encoding = 'utf-8'

这时候改变了编码,每当你访问 r.text ,Request 都将会使用 r.encoding 的新值。你可能希望在使用特殊逻辑计算出文本的编码的情况下来修改编码。比如 HTTP 和 XML 自身可以指定编码。这样的话,你应该使用 r.content 来找到编码,然后设置 r.encoding 为相应的编码。这样就能使用正确的编码解析 r.text 了。

  1. 打印一下
r.text

这时候打印出来的就是utf-8编码的网页了,咱们就拿到这些网页进行抓取内容吧!


敬请期待第二篇

相关文章

网友评论

      本文标题:Python requests模块初体验

      本文链接:https://www.haomeiwen.com/subject/upuugxtx.html