美文网首页Web前端之路程序员
写一个 Markdown translator 玩 (二)

写一个 Markdown translator 玩 (二)

作者: mconintet | 来源:发表于2016-04-23 14:21 被阅读98次

    前面一篇中简单介绍了写一个 Markdown translator 的思路:

    +-------+
    | input |
    +---+---+
        |
        |
    +---v----+
    | Tokens |
    +---+----+
        |
        |
    +---v----+
    |  Tree  |
    +---+----+
        |
        |
    +---v----+
    |  html  |
    +--------+
    

    对于 Markdown 而言,它主要包含 BlockInline 两类元素。那么我的想法就是先解析出 Block 元素,然后在其 Content 中进行 Inline 的解析。

    为了方便调试,我将生成的 Tree 采用 XML 来进行组织后输出,对于这样的输入:

    header
    ====
    

    解析后输出的 Tree 将是这样

    <Document>
        <Children>
            <HeaderSetext>
                <Attributes>
                    <Key>symbol</key>
                    <Value>Token(type: SpecialSymbol, value: ["="])</value>
                </Attributes>
                <Content>[Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])]</Content>
            </HeaderSetext>
        </Children>
    </Document>
    

    在解析 Block 元素的过程中,我发现 Markdown 语法的低效,平时我们在写 Markdown 的时候,都会在块元素之间加上一个或多个空格,以此来获得清晰的阅读效果,比如这样:

    Paragraph
    
    header
    ====
    

    但是,Markdown 语法中,并没有明确的要求块元素之前使用多个 Newline 来分隔,那么你会好奇如果这样写会有怎样的解析结果:

    Paragraph
    header
    ====
    

    很高兴基本上 Translator 直接都有了共识,对应的 HTML 将是这样:

    <p>Paragraph</p>
    <h1>header</h1>
    

    但是这种兼容模式实际是给解析带来了不必要的难度,首先上面的文本会被解析成 Tokens,它们看起来像是这样:

    1. Token(type: Plaintext, value: ["P", "a", "r", "a", "g", "r", "a", "p", "h"])
    2. Token(type: Newline, value: ["\n"])
    3. Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])
    4. Token(type: Newline, value: ["\n"])
    5. Token(type: SpecialSymbol, value: ["="])
    6. Token(type: SpecialSymbol, value: ["="])
    7. Token(type: SpecialSymbol, value: ["="])
    8. Token(type: SpecialSymbol, value: ["="])
    

    为了方便说明,我给它们编了号

    根据 Markdown 语法,在看到 Token#1 时,我们发现接下来将有可能产生一个 Paragraph,于是我们继续往下读取,直到读到 Token#5 的时候,我们才直到,原来前面的内容可能并不全是 Paragraph,它们有可能包含 Header-Setext,于是我们开始尝试 Header-Setext 的语法,直到读到 Token#8 时,我们才确定,之前的内容原来是 ParagraphHeader-Setext

    那么如果语法强制要求块元素之间必须使用两个以上的 Newline 来分隔呢?那么如果你希望被解析成 ParagraphHeader-Setext 话,你就必须写成这样:

    Paragraph
    
    header
    ====
    

    这样的话,当读取到两个以上的 Newline 我们就知道需要开始新的块元素解析了。这样做,既可以让解析更佳的高效,也会符合 Markdown 被创造时的原则 - 易读易写。

    那么 Blockquote 元素是如何解析的呢,对于下面的内容:

    > > nested blockquote
    > H1
    > ====
    

    解析方式就是先解析出最外层的 Blockquote,然后对其内容进行处理 - 去掉 > 和紧随其后的 Space(如果有的话)。那么处理后的 Content 就会是这样:

    > nested blockquote
    H1
    ====
    

    这就是为什么我们在 Blockquote 中如果希望使用 4 空格缩进表示代码块时需要输入 5 个空格:

    > blockquote
    >
    >     code block <!--这里缩进5个空格-->
    

    未完待续

    相关文章

      网友评论

        本文标题:写一个 Markdown translator 玩 (二)

        本文链接:https://www.haomeiwen.com/subject/rggxrttx.html