学习正则表达式

作者: 王诗翔 | 来源:发表于2017-08-22 09:50 被阅读187次

java 正则表达式简单入门
优秀网站收藏
写正则表达式的正确姿势
2018-01-22重命名
正则表达式学习链接
Python密码校验脚本
PostgreSQL正则表达式
Biostar学习笔记（6）正则表达式和序列比对
正则表达式
正则表达式浅略学习

写在最前面的话

最近在浏览Github Star榜时发现了关于学习正则表达式的介绍，感觉非常不错，可以边看边学边练习，所以Fork过来学习分享。作为字符匹配的神器，学会使用正则表达式无疑可以帮助我们方便进行各种文本处理。

因为文章中的例子采用的是html格式，简书的md编辑器解析不了，我就全部删除掉了。如果你想要查看原文的话，点击https://github.com/ShixiangWang/learn-regex/blob/master/README-cn.md。

什么是正则表达式?

正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.

一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种样式.
"Regular expression"这个词比较拗口, 我们常使用缩写的术语"regex"或"regexp".
正则表达式可以从一个基础字符串中根据一定的匹配模式替换文本中的字符串、验证表单、提取字符串等等.

想象你正在写一个应用, 然后你想设定一个用户命名的规则, 让用户名包含字符,数字,下划线和连字符,以及限制字符的个数,好让名字看起来没那么丑.
我们使用以下正则表达式来验证一个用户名:

以上的正则表达式可以接受 john_doe, jo-hn_doe, john12_as.
但不匹配Jo, 因为它包含了大写的字母而且太短了.

元字符	描述
.	句号匹配任意单个字符除了换行符.
[ ]	字符种类. 匹配方括号内的任意字符.
[^ ]	否定的字符种类. 匹配除了方括号里的任意字符
*	匹配>=0个重复的在*号之前的字符.
+	匹配>=1个重复的+号前的字符.
?	标记?之前的字符为可选.
{n,m}	匹配num个中括号之前的字符 (n <= num <= m).
(xyz)	字符集, 匹配与 xyz 完全相等的字符串.
\|	或运算符,匹配符号前或后的字符.
\	转义字符,用于匹配一些保留的字符 <code>[ ] ( ) { } . * + ? ^ $ \ \|</code>
^	从开始行开始匹配.
$	从末端开始匹配.

2.1 点运算符 `.`

.是元字符中最简单的例子.
.匹配任意单个字符, 但不匹配换行符.

简写	描述
.	除换行符外的所有字符
\w	匹配所有字母数字, 等同于 `[a-zA-Z0-9_]`
\W	匹配所有非字母数字, 即符号, 等同于: `[^\w]`
\d	匹配数字: `[0-9]`
\D	匹配非数字: `[^\d]`
\s	匹配所有空格字符, 等同于: `[\t\n\f\r\p{Z}]`
\S	匹配所有非空格字符: `[^\s]`
\f	匹配一个换页符
\n	匹配一个换行符
\r	匹配一个回车符
\t	匹配一个制表符
\v	匹配一个垂直制表符
\p	匹配 CR/LF (等同于 `\r\n`)，用来匹配 DOS 行终止符

符号	描述
?=	前置约束-存在
?!	前置约束-排除
?<=	后置约束-存在
?<!	后置约束-排除

标志	描述
i	忽略大小写.
g	全局搜索.
m	多行的: 锚点元字符 `^` `$` 工作范围在每行的起始.

学习正则表达式

写在最前面的话

什么是正则表达式?

目录

1. 基本匹配

2. 元字符

2.1 点运算符 .

2.2 字符集

2.2.1 否定字符集

2.3 重复次数

2.3.1 * 号

2.3.2 + 号

2.3.3 ? 号

2.4 {} 号

2.5 (...) 特征标群

2.6 | 或运算符

2.7 转码特殊字符

2.8 锚点

2.8.1 ^ 号

2.8.2 $ 号

3. 简写字符集

4. 前后关联约束(前后预查)

4.1 ?=... 前置约束(存在)

4.2 ?!... 前置约束-排除

4.3 ?<= ... 后置约束-存在

4.4 ?<!... 后置约束-排除

5. 标志

5.1 忽略大小写 (Case Insensitive)

5.2 全局搜索 (Global search)

5.3 多行修饰符 (Multiline)

贡献

许可证

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

2.1 点运算符 `.`

2.3.1 `*` 号

2.3.2 `+` 号

2.3.3 `?` 号

2.4 `{}` 号

2.5 `(...)` 特征标群

2.6 `|` 或运算符

2.8.1 `^` 号

2.8.2 `$` 号

4.1 `?=...` 前置约束(存在)

4.2 `?!...` 前置约束-排除

4.3 `?<= ...` 后置约束-存在

4.4 `?<!...` 后置约束-排除