正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。—— 百度百科
Python语言包含了处理正则表达式的引擎,在介绍如何使用Python处理正则表达式之前,先来了解一下常用的正则表达式语法,请看下表:
语法 | 解释说明 | 正则表达式 | 匹配的字符串 |
---|---|---|---|
literal | 完整匹配给定的字符串 | foo | foo |
re1|re2 | 匹配给定的字符串re1或者re2 | foo|bar | foo bar |
. | 匹配除了\n外的任意单个字符 | b.b | bab |
^ | 匹配字符串的开头部分 | ^Dear | DearAll |
$ | 匹配字符串的结尾部分 | End$ | Happy End (Search) |
* | 匹配前一个字符0次或者多次 | abc* | ab abccc |
+ | 匹配前一个字符1次或者多次 | abc+ | abc abccc |
? | 匹配前一字符0次或者1次 | abc? | ab abc |
{N} | 匹配前一个字符N次 | ab{3}c | abbbc |
{M, N} | 匹配前一个字符M到N次。如果M省略,则匹配0到N次;如果N省略,则匹配M到无限次 | ab{2,5}c | abbc abbbbc |
[...] | 匹配中括号中的任意单一字符 | a[aeiou]c | aac aic auc |
[x-y] | 匹配中括号中的指定范围的任意单一字符 | a[0-9]c a[A-Za-z]c |
a5c ahc |
[ ^ ...] | 不匹配中括号中的任意单一字符,或者任意指定范围内的单一字符 | a[aiou]c<br>a[A-Za-z]c | abc a0c |
(...) | 匹配一组字符串,其中...可以是通过正则表达式表示 | a(abc|def)c a(a*b)c |
adefc aaaaabc |
\d | 匹配任意的数字,与[0-9]类似。(\D则相反,不匹配任何的数字) | data\d+.txt | data001.txt |
\w | 匹配任意的字母和数字,与[A-Za-z0-9_]。(\W则相反,不匹配任何的数字字母) | \w+@\w+.com | 匹配邮件地址xxx@yyy.com |
\b | 匹配字符串中任意位置的开始部分(要和^区分开)。举例来说,\bthe可匹配一个字符串中以the开头的任意单词。\B和\b相反,匹配字符串中不以某某开始的部分 | \bthe | the man is cool. He is in the room. |
在Python中,内置了re模块来处理正则表达式。使用的时候,只需要import re即可。下面是常用的几个方法:
方法名 | 说明 (参考表格后面的例子理解) |
---|---|
match | 根据给定的模式,从给定的字符串的开始位置匹配,匹配成功则返回匹配的对象 |
search | 根据给定的模式,查找给定的字符串中匹配模式的部分 |
group | 对于有分组的正则表达式,调用group()的时候将返回完整的匹配字符串;当调用group(N)(N从1开始)时,返回第N个分组。如果正则表达式没有分组,则返回完整的匹配。 |
groups | 对于有分组的正则表达式,返回一个包含所有分组匹配的tuple;如果正则表达式没有分组,调用该方法将返回NONE。 |
关于match和search的区别,我们来通过一个例子了解一下。(请注意,下面的例子采用的3.x的语法)
match的例子
>>> import re
>>> m = re.match(r'hi','This is a dog')
>>> print(m)
None
>>>
上面的例子中,试图在This is a dog中匹配hi。我们可以看到,实际上This中实际是包含了hi,但正如上面表格中所描述:match会根据给定的正则表达式,从头开始匹配。回到这个例子中,这里的正则表达式是hi,那么从头开始匹配的意思是从h开始匹配,接着是i,完整匹配成功才算是匹配上。在给定的字符串中,是以T开头的,这显然匹配失败了。
search的例子
>>> import re
>>> m = re.search(r'hi', 'This is a dog')
>>> print(m)
<_sre.SRE_Match object; span=(1, 3), match='hi'>
上面的例子,和match例子使用的正则表达式和待匹配字符串一样,但是是可以匹配成功的。原因是,在比对This is a dog的时候,发现T匹配不上则接着网络搜索继续匹配。
group和groups的例子
>>> import re
>>> m = re.match(r'\d{8}','87890987')
>>> m.group()
'87890987'
>>> m = re.match(r'(\d{3})-(\d{8})','010-87890987')
>>> m.group()
'010-87890987'
>>> m.group(1)
'010'
>>> m.group(2)
'87890987'
>>> m.groups()
('010', '87890987')
上面的例子中,第一个例子是无分组的正则表达式,可以匹配8位数字。而第二个例子中,是一个有分组的正则表达式。正则表达式中通过括号来表示分组,因此第二个例子有两个分组,这种情况下:调用group()返回完整的匹配;调用group(N)返回第N个分组;调用groups()则返回所有分组的tuple。
网友评论