一、请求
1.GET&POST
GET请求中的参数包含在URL里面,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中。
GET请求提交的数据最多只有1024字节,而POST方式没有限制。
2.请求头(Request Headers)
cookies:记录登录状态
Content-Type:表示媒体类型
爬虫需要设定请求头,在构造POST请求时要注意使用正确的Content-Type
3.请求体(Request Body)
一般记录POST表单中的数据,对于GET请求则为空
二、响应
1.响应状态码(Response Status Code)
表示服务器的响应状态,常见的如:200(正常响应)、404(页面未找到)、500(服务器内部错误)
2.响应头(Response Headers)
服务器对请求的应答信息
3.响应体(Response Body)
包含的是网页的内容
做爬虫时,通过响应体获得网页的数据
三、爬虫概述
1.工作流程:获取网页->提取信息->保存数据
2.理论上来说,网页上的内容都可以抓
四、 session&cookies
1.HTTP
为了保存用户的会话信息,session在服务器;cookies在客户端。下次访问网页时,将cookies发给服务器,服务器能鉴别出用户判断登录状态然后返回响应。
爬虫将登录成功后的cookies发送的请求放在Request Headers中,从而不用再次模拟登录
2.session
服务器在一定时长内存储的用户会话所需的属性和配置信息
3.cookies
为了辨别用户身份在本地存储的数据
属性:
HTTP字段:为true则只在HTTP头部带有cookies而不能用document.cookies访问cookies
Secure:cookies是否使用安全协议传输
浏览器关闭,会话不一定关闭了。服务器并不知道浏览器关闭了,而是会在一定的时长内保持session。其中cookies可以保存在磁盘上
五、代理原理
代理就是把:PC->sever 装换成 PC->proxy sever->server
这样就能实现IP伪装
网友评论