美文网首页Web前端之路程序员
写一个 Markdown translator 玩 (二)

写一个 Markdown translator 玩 (二)

作者: mconintet | 来源:发表于2016-04-23 14:21 被阅读98次

前面一篇中简单介绍了写一个 Markdown translator 的思路:

+-------+
| input |
+---+---+
    |
    |
+---v----+
| Tokens |
+---+----+
    |
    |
+---v----+
|  Tree  |
+---+----+
    |
    |
+---v----+
|  html  |
+--------+

对于 Markdown 而言,它主要包含 BlockInline 两类元素。那么我的想法就是先解析出 Block 元素,然后在其 Content 中进行 Inline 的解析。

为了方便调试,我将生成的 Tree 采用 XML 来进行组织后输出,对于这样的输入:

header
====

解析后输出的 Tree 将是这样

<Document>
    <Children>
        <HeaderSetext>
            <Attributes>
                <Key>symbol</key>
                <Value>Token(type: SpecialSymbol, value: ["="])</value>
            </Attributes>
            <Content>[Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])]</Content>
        </HeaderSetext>
    </Children>
</Document>

在解析 Block 元素的过程中,我发现 Markdown 语法的低效,平时我们在写 Markdown 的时候,都会在块元素之间加上一个或多个空格,以此来获得清晰的阅读效果,比如这样:

Paragraph

header
====

但是,Markdown 语法中,并没有明确的要求块元素之前使用多个 Newline 来分隔,那么你会好奇如果这样写会有怎样的解析结果:

Paragraph
header
====

很高兴基本上 Translator 直接都有了共识,对应的 HTML 将是这样:

<p>Paragraph</p>
<h1>header</h1>

但是这种兼容模式实际是给解析带来了不必要的难度,首先上面的文本会被解析成 Tokens,它们看起来像是这样:

1. Token(type: Plaintext, value: ["P", "a", "r", "a", "g", "r", "a", "p", "h"])
2. Token(type: Newline, value: ["\n"])
3. Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])
4. Token(type: Newline, value: ["\n"])
5. Token(type: SpecialSymbol, value: ["="])
6. Token(type: SpecialSymbol, value: ["="])
7. Token(type: SpecialSymbol, value: ["="])
8. Token(type: SpecialSymbol, value: ["="])

为了方便说明,我给它们编了号

根据 Markdown 语法,在看到 Token#1 时,我们发现接下来将有可能产生一个 Paragraph,于是我们继续往下读取,直到读到 Token#5 的时候,我们才直到,原来前面的内容可能并不全是 Paragraph,它们有可能包含 Header-Setext,于是我们开始尝试 Header-Setext 的语法,直到读到 Token#8 时,我们才确定,之前的内容原来是 ParagraphHeader-Setext

那么如果语法强制要求块元素之间必须使用两个以上的 Newline 来分隔呢?那么如果你希望被解析成 ParagraphHeader-Setext 话,你就必须写成这样:

Paragraph

header
====

这样的话,当读取到两个以上的 Newline 我们就知道需要开始新的块元素解析了。这样做,既可以让解析更佳的高效,也会符合 Markdown 被创造时的原则 - 易读易写。

那么 Blockquote 元素是如何解析的呢,对于下面的内容:

> > nested blockquote
> H1
> ====

解析方式就是先解析出最外层的 Blockquote,然后对其内容进行处理 - 去掉 > 和紧随其后的 Space(如果有的话)。那么处理后的 Content 就会是这样:

> nested blockquote
H1
====

这就是为什么我们在 Blockquote 中如果希望使用 4 空格缩进表示代码块时需要输入 5 个空格:

> blockquote
>
>     code block <!--这里缩进5个空格-->

未完待续

相关文章

  • 写一个 Markdown translator 玩 (二)

    在前面一篇中简单介绍了写一个 Markdown translator 的思路: 对于 Markdown 而言,它主...

  • 写一个 Markdown translator 玩?

    Markdown 早在 2004 年就被发明出来,能够普及到现在的程度离不开它的发明者和所有使用它来写作的人? 它...

  • markdown学习指引

    一,什么是markdown? markdown是一种易写易读的标记语言。 二,为什么用markdown? 良好的平...

  • 浅谈Markdown

    玩博客的人都知道,写博客的时候可以设置常用编辑器为markdown编辑器,那么什么是markdown呢?又怎么用的...

  • 我写文章的工作流(程序员方式)

    一、 构思,勾勒提纲。 工具: 开源免费的FreeMind 二、 写文。 在简书上写,用 markdown 格式,...

  • Markdown入门

    最近写博客对makedown的语法有些生疏,今天写一个markdown入门博客来熟悉下markdown的语法和适用...

  • Web 上的 Markdown 神器 —— Markdown H

    当你习惯用 Markdown 来写东西之后,恨不得写什么都用 Markdown。写邮件用 Markdown,标记重...

  • MWeb使用教程

    作业:写一篇 Markdown 语法介绍教程。 我正好买了一个写Markdown的软件,而且上面有使用、书写教程。...

  • markdown,文字工作者的瑞士军刀

    数数游戏 markdown?什么鬼。 最简单的解释,markdown是一种工具。在了解这个工具之前,让我们先玩一个...

  • Privacy Policy

    The "English-French Translator" app respects and protects...

网友评论

    本文标题:写一个 Markdown translator 玩 (二)

    本文链接:https://www.haomeiwen.com/subject/rggxrttx.html