http基础系列之《http协议结构》

作者: 自律财富自由 | 来源:发表于2020-07-09 16:18 被阅读0次

在两台计算机之间使用 HTTP 协议通信时，在一条通信线路上必定有一端是客户端，另一端则是服务器端。
仅从一条通信路线来说，服务器端和客户端的角色是确定的，而用 HTTP 协议能够明确区分哪端是客户端，哪端是服务器端。

1、请求报文的组成结构

请求方法
请求URI
协议版本
可选的请求首部字段（请求头）
可选的内容实体（body）

请求报文的构成

2、响应报文的组成结构

协议版本
状态码
用以解释状态码的原因短语
可选的响应首部字段
实体主体

响应报文的构成

headers

报文的传送方式由首部字段来决定，不同的首部字段代表不同的含义与功能。
对于前端开发者来说，掌握一些常用的首部字段的含义是很有必要的。

具体headers含义可参考https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Headers

状态码

1XX Informational（信息性状态码）接收的请求正在处理
2XX Success（成功状态码）请求正常处理完毕
3XX Redirection（重定向状态码）需要进行附加操作以完成请求
4XX Client Error（客户端错误状态码）服务器无法处理请求
5XX Server Error（服务器错误状态码）服务器处理请求出错

具有代表性的14种状态码的含义

200 ok (表示请求正常处理)
204 no content （服务器已成功处理请求，但是返回的响应报文中不包含实体的主体部分，浏览器显示的页面不发生更新）
206 partial content (表示客户端进行了范围请求，而服务器成功执行了这部分的 GET 请求。响应报文中包含由 Content-Range 指定范围的实体内容)

301 moved permanently (永久重定向, 客户端所请求资源的URI已经变更)
302 found（临时重定向，请求资源的URI暂时换到另外一个地方，将来还可能改变，先暂时用目前所在位置的资源吧）
303 see other （请求资源存在另外一种URI地址，需要使用GET方法定向获取）
当 301、302、303 响应状态码返回时，几乎所有的浏览器都会把 POST 改成 GET，并删除请求报文内的主体，之后请求会自动再次发送。 301、302 标准是禁止将 POST 方法改变成 GET 方法的，但实际使用时大家都会这么做。
307 temporary redirect (临时重定向，与302含义类似，但不会从 POST 变成 GET)
304 not satisfy (不满足条件的请求，客户端发送了附带条件的请求，服务器端允许请求访问资源，但未满足条件)
附带条件的请求是指采用 GET方法的请求报文中包含 If-Match，If-Modified- Since，If-None-Match，If-Range，If-Unmodified-Since 中任一首部。
304 状态码返回时，不包含任何响应的主体部分。304 虽然被划分在 3XX 类别中，但是和重定向没有关系。

400 bad request (请求报文中存在语法错误)
401 unauthorized (发送的请求需要有通过 HTTP 认证（BASIC 认证、 DIGEST 认证）的认证信息。另外若之前已进行过 1 次请求，则表示用户认证失败)
当浏览器初次接收到 401 响应，会弹出认证用的对话窗口
403 forbidden (请求资源的访问被服务器拒绝)
404 not found (服务器上没有该请求资源)
500 Internal Server Error（服务器处理请求出错）
503 Service Unavailable （服务器正忙）

3、HTTP 是不保存状态的协议

HTTP 是一种不保存状态，即无状态（stateless）协议。
HTTP 协议自身不对请求和响应之间的通信状态进行保存。
也就是说在 HTTP 这个级别，协议对于发送过的请求或响应都不做持久化处理。

http协议无状态的原因：这是为了更快地处理大量事务，确保协议的可伸缩性，而特意把 HTTP 协议设计成如此简单的。如果让服务器管理全部客户端状态，服务器则会负担很大压力

但是有时候我们又需要记录用户的状态，这时候就引入了Cookie的技术。

3.1 Cookie技术

Cookie 技术通过在请求和响应报文中写入 Cookie 信息来控制客户端的状态。

Cookie 会根据从服务器端发送的响应报文内的一个叫做Set-Cookie 的首部字段信息，通知客户端保存 Cookie。当下次客户端再往该服务器发送请求时，客户端会自动在请求报文中加入 Cookie 值后发送出去。

服务器端发现客户端发送过来的 Cookie 后，会去检查究竟是从哪一个客户端发来的连接请求，然后对比服务器上的记录，最后得到之前的状态信息。

4、HTTP协议如何定位到网络资源？

HTTP 协议使用 URI 定位互联网上的资源。
HTTP 协议使用 URI 让客户端定位到资源

5、HTTP获取URI的8种方法（get, post, head, options, put, delete, trace, connect）

5.1 GET方法

GET 方法用来请求访问已被 URI 识别的资源。
指定的资源经服务器端解析后返回响应内容。

5.2 POST方法

POST 方法用来传输实体的主体

虽然用 GET 方法也可以传输实体的主体，但一般不用 GET 方法进行传输，而是用 POST 方法。虽说 POST 的功能与 GET 很相似，但 POST 的主要目的并不是获取响应的主体内容。

5.3 HEAD方法

获得报文首部，用于确认 URI 的有效性及资源更新的日期时间等。

5.4 OPTIONS方法

用来查询针对请求 URI 指定的资源支持的方法

OPTIONS方法

image.png

5.5 PUT方法

PUT 方法用来传输文件。
要求在请求报文的主体中包含文件内容，然后保存到请求 URI 指定的位置

但是，鉴于 HTTP/1.1 的 PUT 方法自身不带验证机制，任何人都可以上传文件 , 存在安全性问题，因此一般的 Web 网站不使用该方法。若配合 Web 应用程序的验证机制，或架构设计采用 REST（REpresentational State Transfer，表征状态转移）标准的同类 Web 网站，就可能会开放使用 PUT 方法。

5.6 DELETE方法

用来删除文件。

但是，HTTP/1.1 的 DELETE 方法本身和 PUT 方法一样不带验证机制，所以一般的 Web 网站也不使用 DELETE 方法。当配合 Web 应用程序的验证机制，或遵守 REST 标准时还是有可能会开放使用的。

5.7 TRACE方法

通过请求头中的Max-Forwards填入数值，每经过一个服务器端就将该数字减 1，当数值刚好减到 0 时，就停止继续传输，最后接收到请求的服务器端则返回状态码 200 OK 的响应。
客户端通过 TRACE 方法可以查询发送出去的请求是怎样被加工修改 / 篡改的。这是因为，请求想要连接到源目标服务器可能会通过代理中转，TRACE 方法就是用来确认连接过程中发生的一系列操作。
TRACE方法容易引发 XST（Cross-Site Tracing，跨站追踪）攻击，通常不会用到。

image.png

5.8 CONNECT方法

要求用隧道协议连接代理
CONNECT 方法要求在与代理服务器通信时建立隧道，实现用隧道协议进行 TCP 通信。
主要使用 SSL（Secure Sockets Layer，安全套接层）和 TLS（Transport Layer Security，传输层安全）协议把通信内容加密后经网络隧道传输。

CONNECT 方法的格式
CONNECT 代理服务器名:端口号 HTTP版本

image.png

6、HTTP为什么要做持久连接（也称长连接）？

持久连接（长连接）：使用同一个TCP连接发送和接受多个 http请求/应答
非持久连接（短连接）：一个TCP连接只能发送和接受一个 http请求/应答
持久连接（HTTP Persistent Connections，也称为 HTTP keep-alive 或 HTTP connection reuse）的特点是，只要任意一端没有明确提出断开连接，则保持 TCP 连接状态。
HTTP协议的长连接和短连接，实质上是TCP协议的长连接和短连接。
HTTP 协议的初始版本中，每进行一次 HTTP 通信就要断开一次 TCP 连接。

以当年的通信情况来说，因为都是些容量很小的文本传输，所以即使这样也没有多大问题。可随着 HTTP 的普及，文档中包含大量图片的情况多了起来。比如，使用浏览器浏览一个包含多张图片的 HTML页面时，在发送请求访问 HTML页面资源的同时，也会请求该 HTML页面里包含的其他资源。因此，每次的请求都会造成无谓的 TCP 连接建立和断开，增加通信量的开销。
（网络的发展，从容量小的文本传输->包含大量图片的HTML页面，图片的请求、资源的请求都会导致TCP的连接建立和断开，增加通信的开销）

6.1 持久连接的好处

减少了 TCP 连接的重复建立和断开所造成的额外开销，减轻了服务器端的负载。
减少开销的那部分时间，使 HTTP 请求和响应能够更早地结束，这样 Web 页面的显示速度也就相应提高了。

7、HTTP如何做到持久连接？

7.1 keep-alive机制（http1.0）

7.1.1 keep-alive握手过程

HTTP/1.0+支持keep-alive连接，但默认并未激活。客户端通过发送一个包含Connection: Keep-Alive首部的请求来请求服务器激活keep-alive连接，即将这条连接保持在打开状态。
如果服务器愿意为下一条请求重用此连接，就会在响应中包含相同的首部。
若没有，服务器就会在发回响应报文后关闭连接。
客户端通过检测响应中是否包含Connection:Keep-Alive响应首部来判断服务器是否会在发送响应后关闭连接
假如服务器同意使用keep-alive连接，那么接下来客户端必须在所有希望保持持久连接的请求中包含Connection: Keep-Alive首部。如果没有发送该首部，服务器会在那条请求后关闭连接。

7.1.2 `keep-alive机制`何时关闭持久连接呢？

注意，Connection: Keep-Alive首部只是请求将连接保持在活跃状态。即使服务器和客户端都同意建立持久连接了，它们仍可以在任意时刻关闭空闲的keep-alive连接，且可随意限制keep-alive连接所处理事务的数量。我们可以通过Keep-Alive选项调节它们的行为:

7.1.3 Keep-Alive选项

用法：Keep-Alive: name[=value][, name=[value]]...
完全可选，但只有在包含了Connection: Keep-Alive首部的情况下才可使用它。
参数timeout：在Keep-Alive响应首部中发送，告诉客户端服务器估计会在打开状态保持到连接空闲多长时间后关闭连接。
参数max：在Keep-Alive响应首部中发送，告诉客户端服务器还会为另外几个http事务将连接保持在打开状态。
注意，这两个参数值仅仅是估计，并非承诺。

Connection: Keep-Alive
Keep-Alive: max=5, timeout=120

说明服务器最多还会为另外5个事务保持连接在打开状态，或者将打开状态保持到连接空闲了2两分钟后关闭。

7.2 persistent连接

HTTP/1.1逐渐停止了对keep-alive连接的支持，用persistent连接替代了它。

Http1.1默认使用持久连接，如果客户端或者服务端任何一方不想使用持久连接，需要通过字段connection：close来通知对方。
只要服务器决定在事务处理结束后关闭连接，就必须在响应中包含Connection: Close首部。但不发送Connection: Close首部也并不意味着服务器承诺永远将连接保持在打开状态。
不管连接是否维持在打开状态，或Connection首部取了什么值，客户端和服务器仍然可以随时关闭空闲连接。
一个客户端对任何服务器或代理最多只能维护两条持久连接，以防服务器过载。

7.3 持久连接的使用场景

一个web页面中内嵌的图片通常都来自同一个Web站点，而且相当一部分的超链接都指向同一个站点。如果初始化了一个持久连接，我们就可以通过此连接发起更多目标服务器相同的请求。

8、什么是管线化技术？

HTTP/1.1的新特性，允许在持久连接上可选地使用请求管道。在响应到达之前，可以将多条请求放入队列。当第一条请求通过网络流向服务器时，第二条和第三条请求也可以开始发送了。在髙时延网络条件下，这样做可以降低网络的环回时间，提高性能。

管道化连接有如下几条限制：

客户端必须确认是持久连接才能使用管道；
如果对请求/响应顺序敏感的话，需要客户端与服务端自定义顺序编号；
客户端必须有出错重试机制：如果客户端打开了一条持久连接，并立即发出了10条请求，服务器可能在只处理了5条请求之后关闭连接。剩下的5条请求会失败，客户端必须能够应对这些过早关闭连接的情况，重新发出这些请求；
尽量使用管道化的方式发送幂等请求；

参考资料：

http基础系列之《http协议结构》

1、请求报文的组成结构

2、响应报文的组成结构

headers