美文网首页工作生活
从URL输入到页面展现到底发生什么

从URL输入到页面展现到底发生什么

作者: oWSQo | 来源:发表于2019-07-02 13:59 被阅读0次

    总体来说分为以下几个过程:

    • 输入地址
    • DNS 解析:将域名解析成IP地址
    • TCP 连接:TCP三次握手
    • 发送HTTP请求
    • 服务器处理请求并返回HTTP报文
    • 浏览器解析渲染页面
    • 断开连接:TCP四次挥手

    URL 到底是啥

    URL(Uniform Resource Locator),统一资源定位符,用于定位互联网上资源,俗称网址。
    比如http://www.w3school.com.cn/html/index.asp,遵守以下的语法规则:

    scheme://host.domain:port/path/filename
    

    各部分解释如下:

    • scheme - 定义因特网服务的类型。常见的协议有http、https、ftp、file
    • host - 定义域主机(http的默认主机是www
    • domain - 定义因特网域名,比如w3school.com.cn
    • port - 定义主机上的端口号(http的默认端口号是80)
    • path - 定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)
    • filename - 定义文档/资源的名称

    输入地址

    当我们开始在浏览器中输入网址的时候,浏览器其实就已经在智能的匹配可能得了,他会从历史记录,书签等地方,找到已经输入的字符串可能对应的URL,然后给出智能提示,让你可以补全URL地址。对于chrome浏览器,他甚至会直接从缓存中把网页展示出来,就是说,你还没有按下enter,页面就出来了。

    域名解析(DNS)

    在浏览器输入网址后,首先要经过域名解析,因为浏览器并不能直接通过域名找到对应的服务器,而是要通过IP地址。大家这里或许会有个疑问----计算机既可以被赋予IP地址,也可以被赋予主机名和域名。比如 www.hackr.jp。那怎么不一开始就赋予个IP地址?这样就可以省去解析麻烦。我们先来了解下什么是 IP 地址。

    1.IP 地址

    IP地址是指互联网协议地址,是IP Address的缩写。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。IP地址是一个32位的二进制数,比如127.0.0.1为本机IP。
    域名就相当于IP地址乔装打扮的伪装者,带着一副面具。它的作用就是便于记忆和沟通的一组服务器的地址。用户通常使用主机名或域名来访问对方的计算机,而不是直接通过IP地址访问。因为与IP地址的一组纯数字相比,用字母配合数字的表示形式来指定计算机名更符合人类的记忆习惯。但要让计算机去理解名称,相对而言就变得困难了。因为计算机更擅长处理一长串数字。为了解决上述的问题,DNS服务应运而生。

    2.什么是域名解析

    DNS协议提供通过域名查找IP地址,或逆向从IP地址反查域名的服务。DNS是一个网络服务器,我们的域名解析简单来说就是在DNS上记录一条信息记录。
    例如baidu.com 220.114.23.56(服务器外网IP地址)80(服务器端口号)

    3. 浏览器如何通过域名去查询URL对应的IP

    • 浏览器缓存:浏览器会按照一定的频率缓存 DNS 记录。所以首先会在浏览器的缓存中查找是否有该域名对应的IP地址。在chrome可以通过地址栏中输入chrome://net-internals/#dns查看缓存的当前状态。
    • 操作系统缓存:如果浏览器缓存中找不到需要的 DNS 记录,那就去操作系统中找。
    • 路由缓存:有些路由器也有DNS缓存的功能,访问过的域名会存在路由器上。
    • ISP的DNS服务器:ISP是互联网服务提供商(Internet Service Provider)的简称,ISP有专门的DNS服务器应对DNS查询请求。在本地查找不到的情况下,就会向ISP进行查询,ISP会在当前服务器的缓存内查找是否有记录。
    • 根服务器:ISP的DNS服务器还找不到的话,它就会向根服务器发出请求,进行递归查询(DNS 服务器先问根域名服务器.com域名服务器的 IP 地址,然后再问.baidu域名服务器,依次类推)

    小结

    浏览器通过向DNS服务器发送域名,DNS服务器查询到与域名相对应的IP地址,然后返回给浏览器,浏览器再将IP地址打在协议上,同时请求参数也会在协议搭载,然后一并发送给对应的服务器。接下来介绍向服务器发送HTTP请求阶段,HTTP请求分为三个部分:TCP三次握手、http请求响应信息、关闭TCP连接。

    TCP 三次握手

    在客户端发送数据之前会发起TCP三次握手用以同步客户端和服务端的序列号和确认号,并交换 TCP 窗口大小信息。

    TCP 三次握手的过程如下:

    • 客户端发送一个带SYN=1,Seq=X的数据包到服务器端口(第一次握手,由浏览器发起,告诉服务器我要发送请求了)
    • 服务器发回一个带SYN=1,ACK=X+1,Seq=Y 的响应包以示传达确认信息(第二次握手,由服务器发起,告诉浏览器我准备接受了,你赶紧发送吧)
    • 客户端再回传一个带ACK=Y+1, Seq=Z的数据包,代表“握手结束”(第三次握手,由浏览器发送,告诉服务器,我马上就发了,准备接受吧)

    标识位(TCP FLAG)

    TCP的头部固定有20个字节,其中分配了6bits给TCP FLAG,组合起来用来表示当前包的类型。分别是:

    • URG:紧急指针,用于将要发送的包标识为“紧急”,这意味着不必等待前段数据被响应处理完即可发送给接收端。
    • ACK:确认标识,用于表示对数据包的成功接收。
    • PSH:推送标识,表示这个数据包应该被立即发送,不需要等待额外的数据。
    • RST:reset标识,用来异常关闭连接。
    • SYN:同步标识,表示TCP连接已初始化。
    • FIN:完成标识,用于拆除上一个SYN标识。一个完整的TCP连接过程一定会有SYN和FIN包。

    为啥需要三次握手

    三次握手”的目的是“为了防止已失效的连接请求报文段突然又传送到了服务端,因而产生错误”。
    “已失效的连接请求报文段”的产生在这样一种情况下:client发出的第一个连接请求报文段并没有丢失,而是在某个网络结点长时间的滞留了,以致延误到连接释放以后的某个时间才到达server。本来这是一个早已失效的报文段。但server收到此失效的连接请求报文段后,就误认为是client再次发出的一个新的连接请求。于是就向client发出确认报文段,同意建立连接。

    假设不采用“三次握手”,那么只要server发出确认,新的连接就建立了。由于现在client并没有发出建立连接的请求,因此不会理睬server的确认,也不会向server发送数据。但server却以为新的运输连接已经建立,并一直等待client发来数据。这样,server的很多资源就白白浪费掉了。采用“三次握手”的办法可以防止上述现象发生。例如刚才那种情况,client不会向server的确认发出确认。server由于收不到确认,就知道client并没有要求建立连接。主要目的防止server端一直等待,浪费资源。

    发送 HTTP 请求

    TCP三次握手结束后,开始发送HTTP请求报文。
    请求报文由请求行、请求头、请求体三个部分组成,如下图所示:

    请求行包含请求方法、URL、协议版本
    • 请求方法包含8种:GET、POST、PUT、DELETE、PATCH、HEAD、OPTIONS、TRACE。
    • URL 即请求地址,由 <协议>://<主机>:<端口>/<路径>?<参数> 组成
    • 协议版本即http版本号
    POST  /chapter17/user.html HTTP/1.1
    
    请求头包含请求的附加信息,由关键字/值对组成,每行一对,关键字和值用英文冒号“:”分隔。

    请求头部通知服务器有关于客户端请求的信息。它包含许多有关的客户端环境和请求正文的有用信息。其中比如:Host,表示主机名,虚拟主机;Connection,HTTP/1.1增加的,使用keepalive,即持久连接,一个连接可以发多个请求;User-Agent,请求发出者,兼容性以及定制化需求。

    请求体,可以承载多个请求参数的数据,包含回车符、换行符和请求数据,并不是所有请求都具有请求数据。
    name=tom&password=1234&realName=tomson
    

    服务器处理请求并返回 HTTP 报文

    每台服务器上都会安装处理请求的应用——web server。常见的web server产品有 apache、nginx、IIS等。
    web server担任管控的角色,对于不同用户发送的请求,会结合配置文件,把不同请求委托给服务器上处理相应请求的程序进行处理,然后返回后台程序处理产生的结果作为响应。

    http 响应报文

    响应报文由响应行、响应头部、响应主体三个部分组成。如下图所示:

    (1) 响应行包含:协议版本,状态码,状态码描述
    状态码规则如下:
    1xx:指示信息--表示请求已接收,继续处理。
    2xx:成功--表示请求已被成功接收、理解、接受。
    3xx:重定向--要完成请求必须进行更进一步的操作。
    4xx:客户端错误--请求有语法错误或请求无法实现。
    5xx:服务器端错误--服务器未能实现合法的请求。

    (2) 响应头部包含响应报文的附加信息,由 名/值 对组成
    (3) 响应主体包含回车符、换行符和响应返回数据,并不是所有响应报文都有响应数据

    浏览器解析渲染页面

    浏览器拿到响应文本HTML后,开始渲染页面。
    浏览器解析渲染页面分为一下五个步骤:

    • 根据HTML解析出DOM树
    • 根据CSS解析生成CSS规则树
    • 结合DOM树和CSS规则树,生成渲染树
    • 根据渲染树计算每一个节点的信息
    • 根据计算好的信息绘制页面

    断开连接

    当数据传送完毕,需要断开tcp连接,此时发起tcp四次挥手。

    • 发起方向被动方发送报文,Fin、Ack、Seq,表示已经没有数据传输了。并进入 FIN_WAIT_1 状态。(第一次挥手:由浏览器发起的,发送给服务器,我请求报文发送完了,你准备关闭吧)
    • 被动方发送报文,Ack、Seq,表示同意关闭请求。此时主机发起方进入 FIN_WAIT_2 状态。(第二次挥手:由服务器发起的,告诉浏览器,我请求报文接受完了,我准备关闭了,你也准备吧)
    • 被动方向发起方发送报文段,Fin、Ack、Seq,请求关闭连接。并进入 LAST_ACK 状态。(第三次挥手:由服务器发起,告诉浏览器,我响应报文发送完了,你准备关闭吧)
    • 发起方向被动方发送报文段,Ack、Seq。然后进入等待 TIME_WAIT 状态。被动方收到发起方的报文段以后关闭连接。发起方等待一定时间未收到回复,则正常关闭。(第四次挥手:由浏览器发起,告诉服务器,我响应报文接受完了,我准备关闭了,你也准备吧)

    为什么建立连接是三次握手,而关闭连接却是四次挥手呢?

    这是因为服务端在LISTEN状态下,收到建立连接请求的SYN报文后,把ACK和SYN放在一个报文里发送给客户端。而关闭连接时,当收到对方的FIN报文时,仅仅表示对方不再发送数据了但是还能接收数据,己方也未必全部数据都发送给对方了,所以己方可以立即关闭连接,也可以发送一些数据给对方后,再发送FIN报文给对方来表示同意现在关闭连接,因此,己方ACK和FIN一般都会分开发送。

    相关文章

      网友评论

        本文标题:从URL输入到页面展现到底发生什么

        本文链接:https://www.haomeiwen.com/subject/ottzcctx.html