写一个 Markdown translator 玩 (二)

作者: mconintet | 来源:发表于2016-04-23 14:21 被阅读98次

写一个 Markdown translator 玩 (二)
写一个 Markdown translator 玩？
markdown学习指引
浅谈Markdown
我写文章的工作流（程序员方式）
Markdown入门
Web 上的 Markdown 神器 —— Markdown H
MWeb使用教程
markdown，文字工作者的瑞士军刀
Privacy Policy

在前面一篇中简单介绍了写一个 Markdown translator 的思路：

+-------+
| input |
+---+---+
    |
    |
+---v----+
| Tokens |
+---+----+
    |
    |
+---v----+
|  Tree  |
+---+----+
    |
    |
+---v----+
|  html  |
+--------+

对于 Markdown 而言，它主要包含 Block 和 Inline 两类元素。那么我的想法就是先解析出 Block 元素，然后在其 Content 中进行 Inline 的解析。

为了方便调试，我将生成的 Tree 采用 XML 来进行组织后输出，对于这样的输入：

header
====

解析后输出的 Tree 将是这样

<Document>
    <Children>
        <HeaderSetext>
            <Attributes>
                <Key>symbol</key>
                <Value>Token(type: SpecialSymbol, value: ["="])</value>
            </Attributes>
            <Content>[Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])]</Content>
        </HeaderSetext>
    </Children>
</Document>

在解析 Block 元素的过程中，我发现 Markdown 语法的低效，平时我们在写 Markdown 的时候，都会在块元素之间加上一个或多个空格，以此来获得清晰的阅读效果，比如这样：

Paragraph

header
====

但是，Markdown 语法中，并没有明确的要求块元素之前使用多个 Newline 来分隔，那么你会好奇如果这样写会有怎样的解析结果：

Paragraph
header
====

很高兴基本上 Translator 直接都有了共识，对应的 HTML 将是这样：

<p>Paragraph</p>
<h1>header</h1>

但是这种兼容模式实际是给解析带来了不必要的难度，首先上面的文本会被解析成 Tokens，它们看起来像是这样：

1. Token(type: Plaintext, value: ["P", "a", "r", "a", "g", "r", "a", "p", "h"])
2. Token(type: Newline, value: ["\n"])
3. Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])
4. Token(type: Newline, value: ["\n"])
5. Token(type: SpecialSymbol, value: ["="])
6. Token(type: SpecialSymbol, value: ["="])
7. Token(type: SpecialSymbol, value: ["="])
8. Token(type: SpecialSymbol, value: ["="])

为了方便说明，我给它们编了号

根据 Markdown 语法，在看到 Token#1 时，我们发现接下来将有可能产生一个 Paragraph，于是我们继续往下读取，直到读到 Token#5 的时候，我们才直到，原来前面的内容可能并不全是 Paragraph，它们有可能包含 Header-Setext，于是我们开始尝试 Header-Setext 的语法，直到读到 Token#8 时，我们才确定，之前的内容原来是 Paragraph 和 Header-Setext。

那么如果语法强制要求块元素之间必须使用两个以上的 Newline 来分隔呢？那么如果你希望被解析成 Paragraph 和 Header-Setext 话，你就必须写成这样：

Paragraph

header
====

这样的话，当读取到两个以上的 Newline 我们就知道需要开始新的块元素解析了。这样做，既可以让解析更佳的高效，也会符合 Markdown 被创造时的原则 - 易读易写。

那么 Blockquote 元素是如何解析的呢，对于下面的内容：

> > nested blockquote
> H1
> ====

解析方式就是先解析出最外层的 Blockquote，然后对其内容进行处理 - 去掉 > 和紧随其后的 Space(如果有的话)。那么处理后的 Content 就会是这样：

> nested blockquote
H1
====

这就是为什么我们在 Blockquote 中如果希望使用 4 空格缩进表示代码块时需要输入 5 个空格：

> blockquote
>
>     code block <!--这里缩进5个空格-->

未完待续

网友评论

本文标题：写一个 Markdown translator 玩 (二)

本文链接：https://www.haomeiwen.com/subject/rggxrttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

写一个 Markdown translator 玩 (二)

相关文章