正则表达式详解

作者: mayiwoaini | 来源:发表于2018-11-20 17:20 被阅读5次

Python3.x 正则表达式部分特殊符号及用法（详解）
Java中的正则表达式详解
正则表达式
正则匹配
正则表达式详解（正则表达式中各个字符使用含义）
nginx常用配置
Swift 正则表达式之ExpressibleByStringL
正则表达式
例子详解正则表达式（二）
golang 正则匹配regexp接口实战学习

转自：https://blog.csdn.net/zengxiantao1994/article/details/77816972
正则表达式是一种特殊的字符串模式，用于匹配一组字符串，就好比用模具做产品，而正则就是这个模具，定义一种规则去匹配符合规则的字符。
首先，从最简单的匹配开始，假设你要搜索一个包含字符”cat”的字符串，搜索用的正则表达式就是”cat”。如果搜索对大小写不敏感，单词“catalog”、“Catherine”、“sophisticated”等都可以匹配。
正则表达式的基本符号
1.1句点符号
假设你要找出三个字母的单词，并且这些单词必须以字母”t”开头，以字母”n”结束。则可以使用一个通配符——句点符号”.”。这样，完整的表达式”t.n”，它可以匹配”tan”、”ten”、”tin”，还可以匹配”t。n”、”t%n”等。句点符号”.”：能匹配除"\n"之外的任何单个字符。要匹配包括'\n'在内的任何字符，请使用像'[.\n]'的模式。
1.2方括号
为了解决句点符号匹配范围过于广泛这一问题，可以使用方括号（”[]”），里面指定可以匹配的单个字符，此时只有方括号里面指定的字符才参与匹配。也就是说，正则表达式“t[aeio]n”只匹配“tan”、“ten”、“tin”和“ton”。但“toon”不匹配。
1.3”或”符号
“|”操作符的基本意义就是“或”运算。要匹配“toon”，使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号，因为方括号只允许匹配单个字符；这里必须使用圆括号“()”。圆括号还可以用来分组。例如，'z|food'能匹配 "z" 或"food"。'(z|f)ood' 则匹配 "zood" 或"food"。
1.4表示匹配次数的符号
这些符号用来确定紧靠该符号左边的符号出现的次数：

符号	次数
*	0次或者多次
+	1次或者多次
？	0次或者1次
{n}	恰好n次
{n, m}	从n次到m次

例如：我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式图所示。在正则表达式中，连字符（“-”）有着特殊的意义，它表示一个范围，比如从0到9。因此，匹配社会安全号码中的连字符号时，它的前面要加上一个转义字符“\”。

图1 假设进行搜索的时候，你希望连字符号可以出现，也可以不出现——即，999-99-9999和999999999都属于正确的格式。这时，你可以在连字符号后面加上“？”数量限定符号。

图2 另外一个例子：美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”，再加上字母部分“[A-Z]{2}”。

图3 1.5开始与结束符号
^会匹配行或者字符串的起始位置，有时还会匹配整个文档的起始位置。
$会匹配行或字符串的结尾。例如：”^this .+ regex”，只能匹配以”this”开头，以及以”regex”结尾的字符串，空格也不能包括。同时^符号称为“否”符号。如果用在方括号内，^表示不想要匹配的字符。例如，匹配除以字母”X”开头的所有单词：”[^X][a-z]+”。
1.6圆括号和空白符号
假设要从格式为“June 26, 1951”的生日日期中提取出月份部分，用来匹配该日期的正则表达式如下：

图4 “\s”符号是空白符号，匹配所有的空白字符，包括Tab字符。如果字符串正确匹配，只需在月份周围加上一个圆括号创建一个组，然后提取出它的值（例如可以使用Java Matcher匹配器类来操作）。

图5 1.7快捷符号
为简便起见，你可以使用一些为常见正则表达式创建的快捷符号。

符号	等价的正则表达式
\d	[0-9]
\D	[^0-9]
\w	[A-Z0-9]
\W	[^A-Z0-9]
\s	[\t\n\r\f]
\S	[^\t\n\r\f]

例如，在前面社会安全号码的例子中，所有出现“[0-9]”的地方都可以使用“\d”。

图6 1.8懒惰限定符
前面说过了表示次数的符号，其实还可以在每个符号后面都再加一个”?”，变成懒惰限定符，即尽可能少的重复。
"?" ：重复任意次，但尽可能少重复。如 "acbacb" 正则 "a.?b"只会取到第一个"acb" 原本可以全部取到但加了限定符后，只会匹配尽可能少的字符，而"acbacb"最少字符的结果就是"acb"。
"+?"：重复1次或更多次，但尽可能少重复，与上面一样，只是至少要重复1次。
"??"：重复0次或1次，但尽可能少重复。如"aaacb"正则"a.??b"只会取到最后的三个字符"acb"。
"{n,m}?"：重复n到m次，但尽可能少重复。如 "aaaaaaaa" 正则 "a{0, m}"因为最少是0次所以取到结果为空。
"{n,}?"：重复n次以上，但尽可能少重复。如 "aaaaaaa" 正则 "a{1,}" 最少是1次所以取到结果为 "a"。
1.9其他符号
"\b" ：不会消耗任何字符只匹配一个位置，常用于匹配单词边界。如：想从字符串中"This is Regex"匹配单独的单词 "is" 正则就要写成 "\bis\b"。 \b不会匹配is两边的字符，但它会识别is两边是否为单词的边界。
"\w"：匹配字母，数字，下划线。例如要匹配"a2345BCD__TTz"。正则："\w+" 。
\：反斜线字符；
\0n：八进制值的字符0n (0 <= n<= 7)；
\0nn：八进制值的字符0nn (0 <= n<= 7) ；
\0mnn：八进制值的字符0mnn 0mnn (0 <= m <= 3, 0 <= n <= 7)；
\xhh：十六进制值的字符0xhh；
\uhhhh：十六进制值的字符0xhhhh。
\t：制表符('\u0009')；\n：换行符('\u000A')；\r：回车符('\u000D')；\f：换页符('\u000C')；\a：响铃符('\u0007')；\e：转义符('\u001B')；\cx T：对应于x的控制字符x。
字符类：[abc]：a, b, or c (简单类) ；[^abc]：除了a、b或c之外的任意字符（求反）；[a-zA-Z]：a到z或A到Z，包含（范围)；[a-z-[bc]]：a到z，除了b和c；[a-z-[m-p]]：a到z，除了m到 p；[a-z-[^def]]：d, e, 或 f。
捕获分组
先了解在正则中捕获分组的概念，其实就是一个括号内的内容如 "(\d)\d" 而"(\d)" 这就是一个捕获分组，可以对捕获分组进行后向引用 (如果后而有相同的内容则可以直接引用前面定义的捕获组，以简化表达式) 如(\d)\d\1 这里的"\1"就是对"(\d)"的后向引用。
"(exp)"：匹配exp，并捕获文本到自动命名的组里。
"(?<name>exp)"：匹配exp，并捕获文本到名称为name的组里。
"(?:exp)"：匹配exp，不捕获匹配的文本，也不给此分组分配组号。
以下为零宽断言：
"(?=exp)"：匹配exp前面的位置。如 "How areyou doing" 正则"(?<txt>.+(?=ing))" 这里取ing前所有的字符，并定义了一个捕获分组名字为"txt" 而"txt"这个组里的值为 "How are you do"。
"(?<=exp)"：匹配exp后面的位置。如 "How areyou doing" 正则"(?<txt>(?<=How).+)" 这里取"How"之后所有的字符，并定义了一个捕获分组名字为"txt" 而"txt"这个组里的值为" are you doing"。
"(?!exp)"：匹配后面跟的不是exp的位置。如"123abc" 正则 "\d{3}(?!\d)" 匹配3位数字后非数字的结果。
"(?<!exp)"：匹配前面不是exp的位置。如 "abc123" 正则 "(?<![0-9])123" 匹配"123"前面是非数字的结果也可写成"(?!<\d)123"。