WEB请求过程

作者: 薛晨 | 来源:发表于2016-05-24 13:52 被阅读957次
    一、一个例子

    当用户在浏览器中输入www.xxx.com这个URL时,
    首先,DNS会把这个域名解析成IP地址,
    然后根据这个IP找到对应的服务器,并发起一个get请求,
    对于服务器端而言,
    可能会有负载均衡设备来平均分配用户请求,
    而请求的数据可能在分布式缓存里,静态文件中,或是数据库中,
    当数据返回给浏览器时,浏览器解析数据发现还有些静态文件(CSS、JS、图片...),又会发起另外的HTTP请求,而这些请求,很可能落在CDN上。

    例子.png

    不过网络架构如何变化,始终有一些固定不变的原则需要遵守:

    • 互联网上所有资源都要用一个URL来表示。
    • 必须基于HTTP与服务端
    二、发起Http请求

    发起一个Http请求和建立一个Socket连接区别不大,只不过outputStream.write写的二进制字节数据格式要符合HTTP。浏览器在建立Socket连接之前,必须根据地址栏输入的URL的域名DNS解析出IP地址,在根据这个IP地址和默认的80端口与远程服务器建立Socket连接,然后浏览器根据这个URL组装成一个get类型的HTTP请求头,通过outputStream.write发送到目标服务器,服务器等待inputStream.read返回数据,最后断开这个连接。

    模拟浏览器发送Http请求:
    httpClient
    curl

    三、Http解析

    要理解Http,最重要的就是熟悉Http中的Http Header,Http Header控制着互联网上成千上万的用户的数据的传输。最关键的是,它控制着用户浏览器的渲染行为和服务器的执行逻辑。

    ** 浏览器缓存机制:**
    在我们浏览一个页面发现有异常时,通常考虑是不是浏览器做了缓存,一般做法Ctrl+F5(mac chrome为command+shift+R)重新请求一次这个页面,该页面肯定是最新的页面。

    原因:

    1. 浏览器直接向目标Url发送请求,不用浏览器缓存。
    2. 即使应用服务器前端部署缓存服务器,也能看到最新的数据,因为通过Http请求头来控制,具体如下。

    请求头新增两个请求项:

    • Pragma:no-cache
    • Cache-Control:no-cache
    1. Cache-Control/Pragma
      这个Http Head字段用于指定所有缓存机制在整个请求/响应链中必须服从的指令
    Http Head 字段可选值
    1. Expires
      Expires通常的使用格式是Expires:Sat, 25 Feb 2012 12:22:17 GMT, 后面跟着一个日期和时间,超过这个时间后,缓存的内容将失效,也就是浏览器在发请求之前接着页面的这个字段,看页面是否过期,过期就重新向服务器发送请求。

    2. Last-Modified/Etag
      Last-Modified字段用于表示一个服务器上的资源的最后修改时间,一般服务端在响应头中返回该字段,浏览器再次请求shi时在请求头中增加一个If-Modified-since字段,询问当前缓存页面是否最新,若是,返回304状态码,告诉浏览器是最新,服务器也不会传输新的数据。

    Etag与上述字段相似,让服务端给每个页面分配一个唯一的编号,通过编号来区分这个页面是否最新。

    四、DNS域名解析
    1. 解析过程
    DNS域名解析

    当用户在浏览器中输入域名按下回车:
    (1)浏览器先查缓存,若缓存中有域名对应IP地址,则解析结束。(存活时间TTL)
    (2)若浏览器缓存中没有,浏览器会查询操作系统中缓存缓存是否有这个域名对应的DNS解析结果。(hosts 文件)
    (3)如果在本机中仍然无法完成域名的解析,则会真正请求域名服务器来解析这个域名了。操作系统会把域名发送给设置的LDNS(cat /etc/resolv.conf)。
    (4)若LDNS没有命中,就直接到Root Server域名服务器请求解析。
    (5)根域名服务器返回本地域名服务器一个所查询域的主域名服务器(gTLD Server)地址。GTLD是国际顶级域名服务器,如.com、.cn、.org等,全球只有13台左右。
    (6)本地域名服务器(Local DNS Server)再向上一步返回的GTLD服务器发送请求。
    (7)接受请求的GTLD服务器查找并返回此域名对应的Name Server域名服务器,这个Name Server通常就是你注册的域名服务器,例如你在某个域名服务提供商申请的域名,那么这个域名解析任务就有这个域名提供商的服务器来完成。
    (8)Name Server返回IP记录和TTL(缓存时间)。
    (9)LDNS缓存该记录,缓存时间有TTL控制。
    (10)解析结果返回给用户,用户根据TTL值缓存在本地系统缓存中,域名解析过程结束。

    在实际的DNS解析过程中,可能不止这10步,如Name Server可能有多级,或者有一个GTM来负载均衡控制等。

    可通过nslookup、dig 命令来跟踪域名解析过程。

    五、CDN工作机制

    CDN即内容分发网络(Content Delivery Network),目的是通过现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络边缘,使用户可以就近取得所需内容,提高用户访问网站响应速度。

    CDN = 镜像(Mirror)+ 缓存(Cache)+ 整体负载均衡(GSLB)

    目前CDN都已缓存网站中静态数据为主。

    **CDN 架构: **

    CDN架构

    ** CDN动态加速 **

    CDN的动态加速技术也是当前比较流行的一种优化技术,是在CDN的DNS解析中通过动态的链路探测来寻找回源最好的一条路径,然后通过DNS的调度将所有请求调度到选定的这条路径上回源,从而加速用户的访问。

    CDN动态加速

    相关文章

      网友评论

        本文标题:WEB请求过程

        本文链接:https://www.haomeiwen.com/subject/mhnarttx.html