一、python爬虫一般的代码实现步骤:
-1.得到url地址、请求头(Refer很重要)
-2.获取url地址的响应
-3.从响应中提取数据
提取数据的方法:xpath
注意:xpath()返回的是一个列表类型
-4.保存数据
二、爬虫项目的基本概念:
超文本传输协议:
HTTP:效率高,安全性不高
HTTPS:HTTP+SSL(加密):安全性高,效率低
GET请求与POST请求:
GET请求:没有请求体,把数据放在url地址中
POST请求:有请求体,把数据放在请求体中(应用于登陆注册、大文本传输)
HTTP协议之请求:
—1.请求行
—2.请求头:
-user_Agent(用户代理):对方服务器通过user_Agent知道当前请求资源的服务器是什么
-如果我们需要模拟手机浏览器发送请求,就需要把user_Agent改为手机版
-cookie:用来存储用户信息的,每次请求都会被携带上传给服务器
—3.请求体
-GET无请求体
-POST有请求体:请求体中带有一些数据
HTTP协议之响应:
-1.响应头
set-cookie:对方服务器通过该字段设置cookie到本地
-2.响应体
-url地址对应的响应
网友评论