美文网首页前端大杂烩
浏览器如何解析 HTML?

浏览器如何解析 HTML?

作者: lio_zero | 来源:发表于2022-05-26 21:08 被阅读0次

    译自 HTML parsing

    浏览器渲染引擎从网络层取得请求的文档,一般情况下文档会分成 8KB 大小的分块传输。

    HTML 解析器的主要工作是对 HTML 文档进行解析,生成解析树。

    解析树是以 DOM 元素以及属性为节点的树。DOM 是文档对象模型(Document Object Model)的缩写,它是 HTML 文档的对象表示,同时也是 HTML 元素面向外部(如 JavaScript)的接口。树的根部是 Document 对象。整个 DOM 和 HTML 文档几乎是一对一的关系。

    解析算法

    HTML 不能使用常见的自顶向下或自底向上方法来进行分析。主要原因有以下几点:

    • 语言本身的“宽容”特性
    • HTML 本身可能是残缺的,对于常见的残缺,浏览器需要有传统的容错机制来支持它们
    • 解析过程需要反复。对于其他语言来说,源码不会在解析过程中发生变化,但是对于 HTML 来说,动态代码,例如脚本元素中包含的 document.write() 方法会在源码中添加内容,也就是说,解析过程实际上会改变输入的内容

    由于不能使用常用的解析技术,浏览器创造了专门用于解析 HTML 的解析器。解析算法在 HTML5 标准规范中有详细介绍,算法主要包含了两个阶段:标记化(tokenization)和树的构建

    解析结束之后

    浏览器开始加载网页的外部资源(CSS,图像,JavaScript 文件等)。

    此时浏览器把文档标记为可交互的(interactive),浏览器开始解析处于推迟(deferred)模式的脚本,也就是那些需要在文档解析完毕之后再执行的脚本。之后文档的状态会变为完成(complete),浏览器会触发加载(load)事件。

    注意解析 HTML 网页时永远不会出现无效语法(Invalid Syntax)错误,浏览器会修复所有错误内容,然后继续解析。

    相关文章

      网友评论

        本文标题:浏览器如何解析 HTML?

        本文链接:https://www.haomeiwen.com/subject/hpbjdltx.html