导语:
requests是python爬虫的最为常用的方式之一,requests实现http请求非常简单,但是requests库是第三方库需要进行安装,可以通过pip3下载:pip3 install requests requests中文文档
requests库的7个主要方法:
方法 | 说明 |
---|---|
requests.request() | 构造一个请求,是以下请求的基本方法 |
requests.get() | 获取html网页的主要方法,对应http的get |
requests.head() | 获取html网页头信息的方法,对应http的head |
requests.post() | 向html页面提交post请求的方法,对应http的post |
requests.put() | 向html页面提交put请求的方法,对应http的put |
requests.patch() | 向html页面提交局部修改的请求,对应http的patch |
requests.delete() | 向页面提交删除请求,对应http的delete |
调用这些方法会返回一response对象,response对象的一些常用方法:
response.headers #响应头
response.status_code #响应码
response.text #服务器返回的文本内容
response.content #返回内容的二进制形式
response.raise_for_status #异常处理 响应码不是200就会触发requests.HTTPError
response.encoding #通过charset猜测返回内容的编码形式 没有就默认为 iso-8859-1
response.apparent_encoding #通过检查返回内容得到编码形式
requests实例:
import requests
def get_html_text(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
except:
return "异常"
return r.text
if __name__ == '__main__':
url = "http://www.baidu.com"
print(get_html_text(url)[:1000])
网友评论