http://www.icourse163.org/course/BIT-1001870001?tid=1001962001#/info 授课老师:嵩天 课程简介:“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。
Requests库的使用:
import requests
r = requests.get(url)
构造一个向服务器请求资源的Request对象(大写)
返回一个包含服务器资源的Response对象
(1)Response对象的属性
r.status_code(200表示连接成功)
r.text(url响应内容)
r.content(响应内容的二进制形式)
r.encoding(从头部预测的编码方式)
r.apparent_encoding(从内容分析的编码方式)
-------r.encoding = r.apparent_encoding
(2)通用框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "wrong connection..."
if __name__ == "__main__":
this_url = "http://www.baidu.com"
print(getHTMLText(this_url))
(3)Requests库的主要方法
requests.request()---------基础方法
requests.get(); requests.head(); requests.post(); requests.put(); requests.patch(); requests.delete()
网友评论