【为了尊严】爬虫（一）

作者: 歌兮舞兮独酌兮 | 来源:发表于2018-09-30 21:18 被阅读9次

一、请求

1.GET&POST

GET请求中的参数包含在URL里面，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输的，会包含在请求体中。
GET请求提交的数据最多只有1024字节，而POST方式没有限制。
2.请求头（Request Headers）
cookies：记录登录状态
Content-Type：表示媒体类型
爬虫需要设定请求头，在构造POST请求时要注意使用正确的Content-Type
3.请求体（Request Body）
一般记录POST表单中的数据，对于GET请求则为空

二、响应

1.响应状态码（Response Status Code）
表示服务器的响应状态，常见的如：200（正常响应）、404（页面未找到）、500（服务器内部错误）
2.响应头（Response Headers）
服务器对请求的应答信息
3.响应体（Response Body）
包含的是网页的内容
做爬虫时，通过响应体获得网页的数据

三、爬虫概述

1.工作流程：获取网页->提取信息->保存数据
2.理论上来说，网页上的内容都可以抓

四、 session&cookies

1.HTTP
为了保存用户的会话信息，session在服务器；cookies在客户端。下次访问网页时，将cookies发给服务器，服务器能鉴别出用户判断登录状态然后返回响应。
爬虫将登录成功后的cookies发送的请求放在Request Headers中，从而不用再次模拟登录
2.session
服务器在一定时长内存储的用户会话所需的属性和配置信息
3.cookies
为了辨别用户身份在本地存储的数据

属性：
HTTP字段：为true则只在HTTP头部带有cookies而不能用document.cookies访问cookies
Secure：cookies是否使用安全协议传输
浏览器关闭，会话不一定关闭了。服务器并不知道浏览器关闭了，而是会在一定的时长内保持session。其中cookies可以保存在磁盘上

五、代理原理

代理就是把：PC->sever 装换成 PC->proxy sever->server
这样就能实现IP伪装

网友评论

本文标题：【为了尊严】爬虫（一）

本文链接：https://www.haomeiwen.com/subject/nyqgoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！