一、介绍
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3!
二、安装
- pip安装
pip install requests
- GitHub下载安装
$ git clone git://github.com/kennethreitz/requests.git
$ cd requests
$ python setup.py install
三、使用
Request库的几个主要方法
- requests.request():构造一个请求,支持以下各种方法
- requests.get():获取html的主要方法
- requests.head():获取html头部信息的主要方法
- requests.post():向html网页提交post请求的方法
- requests.put():向html网页提交put请求的方法
- requests.patch():向html提交局部修改的请求
- requests.delete():向html提交删除请求
requests.get()
# 具体参数
requests.get(url,params,**kwargs)
- url: 需要爬取的网站地址。
- params: 参数,使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中
- **kwargs : 12个控制访问的参数
- 简单的使用
import requests
response = requests.get('https://www.baidu.com') # 最基本的GET请求
print(response .status_code) # 获取返回状态
- 12个**kwargs
- data:字典,字节序或文件对象,重点作为向服务器提供或提交资源是提交。作为request的内容,与params不同的是,data提交的数据并不放在url链接里, 而是放在url链接对应位置的地方作为数据来存储。它也可以接受一个字符串对象。
- json:json格式的数据, json合适在相关的html,http相关的web开发中非常常见, 也是http最经常使用的数据格式, 他是作为内容部分可以向服务器提交。
- headers:字典是http的相关语,对应了向某个url访问时所发起的http的头i字段, 可以用这个字段来定义http的访问的http头,可以用来模拟任何我们想模拟的浏览器来对url发起访问。
- cookies:字典或CookieJar,指的是从http中解析cookie
- auth:元组,用来支持http认证功能
- files:字典, 是用来向服务器传输文件时使用的字段。
- timeout: 用于设定超时时间, 单位为秒,当发起一个get请求时可以设置一个timeout时间, 如果在timeout时间内请求内容没有返回, 将产生一个timeout的异常。
- proxies:字典, 用来设置访问代理服务器。
- allow_redirects: 开关, 表示是否允许对url进行重定向, 默认为True。
- stream: 开关, 指是否对获取内容进行立即下载, 默认为True。
- verify:开关, 用于认证SSL证书, 默认为True。
- cert: 用于设置保存本地SSL证书路径
- 带参数的Get请求
# 复杂的get请求
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
url = "https://www.baidu.com/s"
params = {
"ie":"utf-8",
"kw":"校花"
}
r = requests.get(url=url,headers=headers,params=params)
# get请求的参数用params形参来接收,接收的时候字典就行
print(r.status_code)
- 获取cookies
import requests
r = requests.get('http://www.google.com.hk/')
print(r.cookies['NID'])
print(tuple(r.cookies))
对于某些需要登录才能访问的网站,获取到Cookies后,下次请求时我们可以携带Cookies进行网站的访问
- 携带cookie
import requests
url = 'http://httpbin.org/cookies'
cookies = {'testCookies_1': 'Hello_Python3', 'testCookies_2': 'Hello_Requests'}
# 在Cookie Version 0中规定空格、方括号、圆括号、等于号、逗号、双引号、斜杠、问号、@,冒号,分号等特殊符号都不能作为Cookie的内容。
r = requests.get(url, cookies=cookies)
print(r.json())
requests有一个Session对象可以用于保存会话。练习将使用Session对象来保存对话
- 上传文件
# 上传图片
import requests
url = 'http://127.0.0.1:5000/upload'
files = {'file': open('./test.jpg', 'rb')}
#files = {'file': ('test.jpg', open('/test.jpg', 'rb'))} #显式的设置文件名
r = requests.post(url, files=files)
print(r.text)
# 把字符串当成文件进行上传
import requests
url = 'http://127.0.0.1:5000/upload'
files = {'file': ('test.txt', b'Hello Requests.')} #必需显式的设置文件名
r = requests.post(url, files=files)
print(r.text)
- 使用代理
import requests
proxies = {
"http": "http://10.10.1.10:3128",
"https": "http://10.10.1.10:1080",
}
requests.get("http://www.zhidaow.com", proxies=proxies)
response的对象属性
- 对象属性
- status_code:请求的返回状态,若为200则表示请求成功。
- text:响应内容的字符串形式,即返回的页面内容
- encoding:从http header 中猜测的相应内容编码方式
- apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)
- content:响应内容的二进制形式返回
- 使用
>>> import requests
>>> r=requests.get("http://www.baidu.com")
>>> r.status_code
200
>>> r.encoding
'ISO-8859-1'
>>> r.apparent_encoding
'utf-8'
>>> r.content
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8>ipt> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">æ\x9b´å¤\x9a产å\x93\x81</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a com/ class=cp-feedback>æ\x84\x8fè§\x81å\x8f\x8dé¦\x88</a> 京ICPè¯\x81030173å\x8f· <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'
>>> r.encoding='utf-8'
>>> r.text
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta chref=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css="h读</a> <a href=http://jianyi.baidu.com/ class=cp-feedback>意见反馈</a> 京ICP证030173号 <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'
练习
- 微博登录
import requests
# 主页url
url = "https://weibo.cn/6370062528/info"
# 登录接口
login_url = "https://passport.weibo.cn/sso/login"
# 请求头
headers = {
'Accept': '*/*',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Content-Type': 'application/x-www-form-urlencoded',
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
'Host': 'passport.weibo.cn',
'Origin': 'https://passport.weibo.cn',
'Referer': 'https://passport.weibo.cn/signin/login?entry=mweibo&r=https%3A%2F%2Fweibo.cn%2F%3Fluicode%3D20000174&backTitle=%CE%A2%B2%A9&vt='
}
# 请求体
data = {
'username':'USERNAME',
'password': 'PASSWORD',
'savestate':'1',
'r': 'https://weibo.cn/?luicode=20000174',
'ec': '0',
'pagerefer': 'https://weibo.cn/pub/?vt=',
'entry': 'mweibo',
'wentry':'',
'loginfrom':'',
'client_id':'',
'code':'',
'qq':'',
'mainpageflag': '1',
'hff':'',
'hfp':''
}
# r = requests.post(url=login_url,data=data,headers=headers)
# 【注意】requests无法保存会话信息
# requests有一个Session对象可以用于保存会话。这样在我们登录完成后就可以再访问主页了。当然你也可以选择不使用Session来保存会话,而选择在登录完成后再访问主页的时候携带你的cookies。
s = requests.Session()
r = s.post(url=login_url,data=data,headers=headers)
print(r.text)
res = s.get(url=url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'})
print(res.status_code)
with open("weibo.html",'wb') as fp:
fp.write(res.content)
网友评论