http协议

作者: 灏玮 | 来源:发表于2021-04-10 19:35 被阅读0次

第六个模块 HTTP协议、Restful
HTTP请求简单总结
Java----使用nioSocket获取和返回http报文
HTTP常见概念整理
三、Servlet-登陆、跳转、统计
Http
2019-08-09 Python网络爬虫与信息提取（2） HT
HTTP协议
RESTful架构以及HTTP协议
面试题

HTTP简介

HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写，是用于从万维网（WWW：World Wide Web）服务器传输超文本到本地浏览器的传送协议。
HTTP是一个基于TCP/IP通信协议来传递数据（HTML文件，图片文件，查询结果等）。
HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。
HTTP协议工作于客户端-服务端架构上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。WEB服务器根据接收到的请求后，向客户端发送相应信息。

主要特点

简单快速：客户端向服务器请求服务时，只需传送请求方法和路径。请求方法常用的有GET、POST、PUT、DELETE。每种方法规定了客户于服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。
灵活：HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。
无连接：无连接的含义是限制每次链接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开链接。采用这种方式可以节省传输时间。
无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次链接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。
支持B/S及C/S模式。

HTTP之URL

HTTP使用统一资源表示符（Uniform Resource Identifiers，URI）来传输数据和建立连接。URL是一种特殊类型的URI，包含了用于查找某个资源的足够的信息
URL，全称是UniformResourceLocator，中文叫统一资源定位符，是互联网上用来标识某一处资源的地址。以下面这个URL为例，介绍下普通URL的各部分组成：

http://www.aspxfans.com:8080/news/index.asp?boardID=5&ID=24618&page=1#name

从上面的URL可以看出，一个完整的URL包括以下及部分：

协议部分：该URL的协议部分为“http：”，这代表网页使用的是HTTP协议。在Internet中可以使用多种协议，如HTTP，FTP等等示例中使用的是HTTP协议。在“HTTP”后面的“//”为分隔符
域名部分：该URL的域名部分为“www.aspxfans.com”。一个URL中，也可以使用IP地址作为域名使用
端口部分：跟在域名后面的是端口，域名和端口之间使用“：”作为分隔符。端口不是一个URL必须的部分，如果省略端口部分，将采用默认端口
虚拟目录部分：从域名后的第一个“/”开始到最后一个“/”为止，是虚拟目录部分。虚拟目录也不是一个URL必须的部分。本例中的虚拟目录是“/news/”
文件名部分：从域名后的最后一个“/”开始到“？”为止，是文件名部分，如果没有“？”，则是从域名的最后一个“/”开始到“#”为止，是文件部分，如果没有“？”和“#”，那么从域名后的最后一个“/”开始到结束，都是文件名部分。本例中的文件名是“index.asp”。文件名部分也不是一个URL必须的部分，如果省略该部分，则使用默认的文件名
锚部分：从“#”开始到最后，都是锚部分。本例中锚部分是“name”。锚部分也不是一个URL必须的部分
参数部分：从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分。本例中的参数部分为“boardID=5&ID=24618&page=1”。参数可以允许有多个参数，参数于参数之间用“&”作为分隔符。

URI和URL的区别

URI，是uniform resource identifier，统一资源标识符，用来唯一的标识一个资源。
WEB上可用的美中资源如HTML文档、图像、视频片段、程序等都是一个URL来定位的
URI一般由三部分组成：

访问资源的命名机制
存放资源的主机名
资源自身的名称，由路径标识，着重强调于资源

URL是uniform resource locator，统一资源定位器，它是一种具体的URI，即URL可以用来标识一个资源，而且还指明了如何locate这个资源。
URL是Internet上用来描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上，特别是著名的Mosaic
采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL一般由三部分组成：

协议（或称为服务方式）
存有该资源的主机IP地址（有时也包括端口号）
主机资源的具体地址，如目录和文件名等

URN，uniform resource name，统一资源命名，是通过名字来标识资源，比如maito：java-net@java.sun.com。
URI是以一种抽象的，高层次概念定义统一资源标识，而URL和URN则是具体的资源标识的方式。URL和URN都是一种URI。笼统地说，每个URL都是URI，但不一定每个URI都是URL。这事因为URI还包括一个子类，即统一资源名称（URN），它命名资源但不制定如何定位资源。上面的mailto、news和isbn URI都是URN的示例。

在java的URI中，一个URI示例可以代表绝对的，也可以是相对的，只要它符合URI的语法规则。而uRL类则不仅符合语义，还包含了定位该资源的信息，因此它不能是相对的。
在java类库中，URI类不包含任何访问资源的方法，它唯一的作用就是解析。
相反的，URL类可以打开一个到达资源的流。

HTTP特性：

http协议构建与TCP/IP协议之上，应用层协议，默认端口80
http无链接状态

HTTP报文：

HTTP请求方法

根据HTTP标准，HTTP请求可以使用多种请求方法。
HTTP1.0定义了三种请求方法：GET，POST和HEAD方法
HTTP1.1新增了五种请求方法：OPTIONS，PUT，DELETE，TRACE和CONNECT方法

GET 请求制定的页面信息，并返回实体主体
HEAD 类似于get请求，只不过返回的响应中没有具体的内容，用于获取报头
POST 向指定资源提交数据进行处理请求（例如提交表单或者上传文件）。数据被包含在请求体中。POST请求可能会导致新的资源的建立或已有资源的修改
PUT 从客户端想服务器传送的数据取代指定的文档的内容
DELETE 请求服务器删除指定的页面
CONNECT HTTP1.1协议中预留给能够将链接改为管道方式的代理服务器
OPTIONS 允许客户端查看服务器的性能
TRACE 回显服务器收到的请求，主要用于测试或诊断

请求报文

四部分：状态行、请求头、空行、消息主体

第一部分：请求行，用来说明请求类型，要访问的资源以及所使用的HTTP版本
第二部分：请求头部，紧接着请求行（即第一行）之后的部分，用来说咪给你服务器要使用的附加信息
第三部分：空行，请求头部后面的空行是必须的
第四部分：请求数据也叫主体，可以添加任意的其他数据
请求消息组成：method、request-url、version、headers、entity-body
method：四种，GET、POST、PUT、DELETE 对应查，增，改，删

1. GET用于信息获取，而且应该是安全的和幂等的
2. POST表示可能修改服务器上的资源的请求
3. 注意：
* GET可提交的数据量受到URL长度的限制，HTTP协议规范没有对URL长度进行限制。这个限制是特定的浏览器及服务器对它的限制
* 理论上讲，POST是没有大小限制的，HTTP协议规范也没有进行大小限制，处于安全考虑，服务器软件在实现时会做一定限制
* GET和POST数据内容一摸一样，知识位置不同，一个在URL里，一个在HTTP包的包体里

响应报文

四部分：状态行，消息报头，空行，响应正文

第一部分：状态行，由HTTP协议版本号，状态码，状态消息三部分组成
第二部分：消息报头，用来说明客户端要使用的一些附加信息
第三部分：空行，消息报头后面的空行是必须的
第四部分：响应正文，服务器返回给客户端的文本信息

状态行由协议版本、数字形式的状态代码、及响应的状态描述，各元素之间以空格分隔。
常见的状态码有如下几种：

200 OK 客户端请求成功
301 Moved Permanently 请求永久重定向
302 Moved Temporarily 请求临时重定向
304 Not Modified 文件未修改，可以直接使用缓存的文件
400 Bad Request 由于客户端请求有语法错误，不能被服务器所理解
401 Unauthorized 请求未经授权。这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden 服务器收到请求，但是拒绝提供服务。服务器通常会在响应正文中给出不提供服务的原因
404 Not Found 请求的资源不存在，例如，输入了错误的URL
1xx：指示信息表示请求已接收，继续处理
2xx：成功表示请求已被成功接收、理解、接受
3xx：重定向要完成请求必须进行更进一步的操作
4xx：客户端错误请求有语法错误或请求无法实现
5xx：服务器端错误服务器未能实现合法的请求

HTTP工作原理

HTTP协议定义WEB客户端如何从WEB服务器请求WEB页面，以及服务器如何把WEB页面传送给客户端。HTTP协议采用了请求/响应模型。客户端想服务器发送一个请求报文，请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行为作为响应，响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。
以下是HTTP请求/响应的步骤：

1. 客户端链接到WEB服务器
一个HTTP客户端，通常是浏览器，与WEB服务器的HTTP端口（默认为80）建立一个TCP套接字链接
2. 发送HTTP请求
通过TCP套接字，客户端想WEB服务器发送一个文本的请求报文，一个请求报文由请求请求行、请求头部、空行和请求数据4部分组成。
3. 服务器接受请求并返回HTTP响应
WEB服务器解析请求，定位请求资源。服务器将资源复本写到TCP套接字，由客户端读取。一个响应由状态行、响应头部、空行和响应数据4部分组成。
4. 释放链接TCP连接
若connection模式为close，则服务器主动关闭TCP连接，客户端被动关闭连接，释放TCP连接；若connection模式为keepalive，则该连接会保持一段时间，在该时间内可以继续接收请求
5. 客户端浏览器解析HTML内容
客户端浏览器首先解析状态行，查看表明请求是否成功的状态代码。然后解析每一个响应头，响应头告知以下为若干字节的HTML文档和文档的字符集。客户端浏览器读取响应数据HTML，根据HTML的语法进行格式化，并在浏览器窗口中显示。

例如：在浏览器地址栏键入URL，按下回车之后会经历以下流程：
1. 浏览器向DNS服务器请求解析该URL中的域名所对应的IP地址
2. 解析出IP地址后，根据该IP地址和默认端口80，和服务器建立TCP连接
3. 浏览器发出读取文件（URL中域名后面部分对应的文件）的HTTP请求，该请求包围作为TCP三次握手的第三个报文的数据发送给服务器
4. 服务器对浏览器请求做出响应，并把对应的html文本发送给浏览器
5. 释放TCP连接
6. 浏览器将该html文本解析并显示内容

GET和POST请求的区别

GET提交，请求的数据会附在URL之后（就是把数据防止在HTTP协议头中），以？分割URL和传输数据，多个参数用&连接，如果是英文字母/数字，原样发送，如果是空格，转换为+，如果是中文/其他字符，则直接把字符串用BASE64加密（16禁止表示的ASCII）；POST提交，把提交的数据放置在HTTP包的包体中。因此，GET提交的数据会在地址栏中显示出来，而POST提交，地址栏不会改变
传输数据的大小：首先声明，HTTP协议没有对传输的数据大小进行限制，HTTP协议规范也没有对URL长度进行限制，而在实际开发中存在的限制主要有：
GET：特定浏览器和服务器对URL长度有限制，因此对于GET提交时，传输数据就会受到URL长度的限制
POST：由于不是通过URL传值，理论上数据不受限。但实际各个WEB服务器会规定对POST提交数据大小进行限制
安全性：POST的安全性要比GET的安全性高。使用GET提交数据还可能造成Cross-site request forgery供给
HTTP get，post，soap协议都是在http上运行的

1. get：请求参数是作为一个key/value对的序列（查询字符串）附加到URL上的
查询字符串的长度收到web浏览器和web服务器的限制，不适合传输大型数据集，同时它很不安全
2. post：请求参数是在http标题的一个不同部分（名为 entity body——传输的，这一部分用来传输表单信息，因此必须进行Content-type设置。post设计用来支持web窗体上的用户字段，其参数也是作为key/value对传输。但是，它不支持复杂数据类型，因为post没有定义传输数据结构的语义和规则
3. soap：是http post的一个专用版本，遵循一种特殊的xml消息格式
Content-type设置为：text/xml 任意数据都可以xml化
http协议定义了很多与服务器交互的方法，最基本的有4中，分别是GET、POST、PUT、DELETE。

GET和POST的区别：

GET提交的数据会放在URL之后，以？分割URL和传输数据，参数之间以&相连；POST提交是把提交的数据放在HTTP包的Body中。
GET提交的数据大小有限制（因为浏览器对URL的长度有限制），而POST方法提交的数据没有限制
GET方式需要使用Request.QueryString来取得变量的值，而POST方式通过Request.Form来获取变脸的值
GET方式提交数据，会带来安全问题

跨站攻击

CSRF（Cross-site request forgery，跨站请求伪造）
如何防范CSRF攻击：

关键操作只接受POST请求
验证码（一般用在特殊操作里面或者在注册的时候使用）
检测Referer（用于监控和判断是否为CSRF攻击，而不是用来抵御攻击）
Token（要足够随机，达到不可预测；一次性，增加攻击难度，预测难度；主义保密性）

XSS（Cross Site Scripting，跨站脚本攻击）
如何防御XSS攻击：

过滤用户的输入
将用户的输入使用HTML解析哭进行解析

第六个模块 HTTP协议、Restful
HTTP协议 · HTTP协议 · 工作原理 HTTP协议请求 HTTP协议响应 HTTP协议消息报头 1、普通报...
HTTP请求简单总结
HTTP协议 HTTP协议：超文本传输协议(Hypertext Transfer Protocol) http协议...
Java----使用nioSocket获取和返回http报文
参考博客：HTTP协议（一）之HTTP协议详解 HTTP协议 HTTP(HyperText Transfer Pr...
HTTP常见概念整理
基础TCP/IPTCP协议IP协议DNS协议URI与URL HTTP协议HTTP报文HTTP方法HTTP状态码名...
三、Servlet-登陆、跳转、统计
一、Http协议 HTTP协议：超文本传输协议（HTTP，HyperText Transfer Protocol)...
Http
HTTP 协议 HTTP 协议详解超文本传输协议（HTTP，HyperText Transfer Protoco...
2019-08-09 Python网络爬虫与信息提取（2） HT
HTTP协议 HTTP协议，即超文本传输协议(Hypertext transfer protocol)。HTTP协...
HTTP协议
HTTP 协议工作原理 HTTP协议请求 HTTP协议响应常见状态代码、状态描述、说明： HTTP协议消息报头
RESTful架构以及HTTP协议
HTTP协议 HTTP协议描述 HTTP协议是Hyper Text Transfer Protocol（超文本传输...
面试题
其他知识点： http协议面试： http定义：什么是Http无状态协议，怎么解决Http协议无状态协议1.无状...