正则表达式是一种通用的对字符串操作的逻辑公式,用事先规定好的一些特定的字符以及特定字符间的组合来组成一个规则字符串,用来表示对字符串的过滤逻辑。简言之,正则表达式是非常强大的文本处理工具,仅仅使用非常简洁的表达式语句,便能迅速的实现非常复杂的业务逻辑,极大的提高开发效率和程序的运行效率。
文章起源
本篇文章缘起为我个人的毕业设计项目《一个多平台 Blog 系统的开发与实现》,既然是做一个 Blog 收发平台,除了基本的文章撰写、发布、评论、点赞、收藏、分享功能之外,更为重要的是需要支持 Markdown 语法排版和解析的功能,很难想象一个号称 Blog 的平台不支持富文本排版会是一个什么样的体验。
Markdown 是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式。既然如此,那解析 Markdown 语法文本字符串的功能的实现自然而然的就想到了使用正则表达式。
正则表达式规则
在使用正则表达式解析 Markdown 语法之前,我们要先对正则表达式的规则有一个基本的认识,下面我整理了一张正则表达式语法对照表。
正则字符 | 含义 | 正则字符 | 含义 |
---|---|---|---|
^ | 以某指定字符开头 | (a|b) | a 或 b |
$ | 以某指定字符结尾 | [abc] | 匹配一个单字符是 a 或 b 或 c |
. | 匹配任意单字符 | [^abc] | 匹配一个单字符不是 a 或 b 或 c |
* | 匹配前面的子表达式0次或多次 | [a-z] | 小写字符 a ~ z 之间 |
\ | 转义字符 | [0-9] | 数字 0 ~ 9 之间 |
[] | 使用[]中的规则集合匹配对象 | \s | 空格 |
() | 标记一个子表达式的开始和结束位置 | \S | 非空格 |
+ | 匹配前面的子表达式1次或多次 | \d | 数字 |
| | 或者 | \D | 非数字 |
? | 匹配前面的子表达式0次或1次 | {x} | x是非负整数,匹配确定的 x 次 |
- | 指定字符串的范围 | {x,} | x是非负整数,匹配至少 x 次 |
\b | 匹配一个单词边界,即单词和空格间的位置 | {x,y} | xy是非负整数,匹配 x~y 次之间 |
正则表达式简单应用
1、表示所有以"The"开始的字符串。("There", "The cat")
^The
2、表示字符串包含一个a,并且 a 后面跟着0个或多b。("a", "ab", "abbb")
ab*
3、表示字符串有一个a,并且 a 后面跟着至少2个b。
ab{2,}
4、表示字符串有一个a,并且 a 后面跟着一个任意字符和一个数字。
a.[0-9]
除此之外,网上还有很多有关 URL、Email、电话或手机号码、校验邮政编码、校验密码强度等规则,这里就不在一一列举说明了。
正则表达式解析 Markdown 语法
Markdown 语法包括标题、图片、链接、引用块、列表、粗体、斜体等,下面是解析这些语法的正则表达式和简单说明:
1、标题(表示以一个或多个“#”开头的字符串,并且“#”之后有0个或以上的字符,如:“### 三级标题”)。
^(#+)(.*)
2、链接 (在 Markdown 语法中链接的表示形式为 [链接](URL)。)。
(\\[.+\\]\\([^\\)]+\\))|(<.+>)
上面的表达式可以以 | 分为两个部分:
a) (\[.+\]\([^\)]+\))
b) (<.+>)
其中 b) 匹配的是 HTML 标签对,而 a) 又可以以中间的 \ 分为两个部分:
c) \[.+\]
d) ([^\)]+\)
其中 c) 是用来匹配包含 [ + 超过1个字符 + ] 的字符串,而 d) 是用来匹配紧随其后的包含 ( + 超过1个字符 + )的字符串。满足这个整体规则的字符串便是 Markdown 语法的链接了。
3、斜体(表示以一个 * 或者 _ 开头并结尾(\\1表示规则和第一个集合相同),中间包含0个或多个字符的字符串)。
(\\*|_)(.*?)\\1
懒癌发作,一个一个的这么分析太慢了,如果你们需要,请自行结合 Markdown 语法规则分析下面的正则表达式:
4、图片(部分地方同链接)
!\\[[^\\]]+\\]\\([^\\)]+\\)
5、粗体(同斜体)
(\\*\\*|__)(.*?)\\1
6、删除线(删除线)
\\~\\~(.*?)\\~\\~
7、引用块
\n(>|\\>)(.*)
8、内联代码块
`{1,2}[^`](.*?)`{1,2}
9、分割线
^-+$
10、```包围的代码块
```([\\s\\S]*?)```[\\s]?
11、无序列表
^[\\s]*[-\\*\\+] +(.*)
12、有序列表
^[\\s]*[0-9]+\\.(.*)
应用
这些解析规则全都应用在了我的毕业设计里面,最大的用途之一是 Markdown 语法的实时高亮和富文本转换。先看看效果图,改天写关于 Markdown 语法高亮和富文本转换的应用。
正则表达解析 Markdown 语法应用总结
本文旨在通过介绍一些正则表达式的基础语法,并根据在自己实际的毕业设计项目中的应用来简单解释一些有关正则表达式的一些用法。另外,想要熟练掌握正则表达的规则只能通过自己多写多练,这里给大家推荐一款不错的在线正则表达式测试工具regex101。
有任何疑问或指正请前往我的个人主页:崔鹏飞的个人主页,或直接联系:0x00ffee@gmail.com,谢谢。
网友评论