Requests库入门
requests.request() 构造一个请求,支撑以下各方法的基础方法
requests.get() 获取HIN网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() 向 HTML网页提变PO)ST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HIML网页提交局部修改请求,对应于HTTP的 PATCH
requests.delete() 向HTML页面提交删除请求,对应于HTTP的 DELETE
r.status_code http请求的返回状态,200表示连接成功,404表示失败
r.text http 响应的字符串形式,就是URL对应的页面内容
r.encoding 从http header 中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式(备选编码方式)
r.content http 响应内容的二进制形式
requests.ConnectionError 网络连接错误异常,如DNS查询失败。拒绝连接等
requests.HTTPError HTTP错误异常
requests.URLRequired URL缺失异常
requests.TooManyRedirects 超过最大重定向次数,产生重定向异常
requests.ConnectTimeout 连接远程服务器超时异常
requests.TimeOut 请求URL超时,产生超时异常
request.raise_for_status() 该函数会进行检测 如果状态码不是200,就会引发HTTPError异常
- HTTP 协议对资源的操作
- GET 请求获取 URL 位置的资源
- HEAD 请求获取 URL 位置资源的响应消息报告,即获得该资源的头部信息
- POST 请求向 URL 位置的资源后附加新的数据
- PUT 请求向 URL 位置存储一个资源,覆盖原 URL 位置的资源 PAT C H 请求局部更新 URL 位置的资源,即改变该处资源的部分内容
- DELETE 请求删除 URL 位置存储的资源
- 网络爬虫的尺寸
- 小规模,数据量小; Requests 库 爬取网页玩转网页
- 中规模,数据规模较大 Scrapy库 爬取网站 爬取系列网站
- 大规模,搜索引擎爬取速度不敏感爬取速度敏感爬取速度关键 定制开发 爬取全网
网友评论