美文网首页
在Python中使用正则表达式

在Python中使用正则表达式

作者: 大聖Jonathan | 来源:发表于2017-03-02 17:32 被阅读0次

正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。—— 百度百科

Python语言包含了处理正则表达式的引擎,在介绍如何使用Python处理正则表达式之前,先来了解一下常用的正则表达式语法,请看下表:

语法 解释说明 正则表达式 匹配的字符串
literal 完整匹配给定的字符串 foo foo
re1|re2 匹配给定的字符串re1或者re2 foo|bar foo
bar
. 匹配除了\n外的任意单个字符 b.b bab
^ 匹配字符串的开头部分 ^Dear DearAll
$ 匹配字符串的结尾部分 End$ Happy End (Search)
* 匹配前一个字符0次或者多次 abc* ab
abccc
+ 匹配前一个字符1次或者多次 abc+ abc
abccc
? 匹配前一字符0次或者1次 abc? ab
abc
{N} 匹配前一个字符N次 ab{3}c abbbc
{M, N} 匹配前一个字符M到N次。如果M省略,则匹配0到N次;如果N省略,则匹配M到无限次 ab{2,5}c abbc
abbbbc
[...] 匹配中括号中的任意单一字符 a[aeiou]c aac
aic
auc
[x-y] 匹配中括号中的指定范围的任意单一字符 a[0-9]c
a[A-Za-z]c
a5c
ahc
[ ^ ...] 不匹配中括号中的任意单一字符,或者任意指定范围内的单一字符 a[aiou]c<br>a[A-Za-z]c abc
a0c
(...) 匹配一组字符串,其中...可以是通过正则表达式表示 a(abc|def)c
a(a*b)c
adefc
aaaaabc
\d 匹配任意的数字,与[0-9]类似。(\D则相反,不匹配任何的数字) data\d+.txt data001.txt
\w 匹配任意的字母和数字,与[A-Za-z0-9_]。(\W则相反,不匹配任何的数字字母) \w+@\w+.com 匹配邮件地址xxx@yyy.com
\b 匹配字符串中任意位置的开始部分(要和^区分开)。举例来说,\bthe可匹配一个字符串中以the开头的任意单词。\B和\b相反,匹配字符串中不以某某开始的部分 \bthe the man is cool.
He is in the room.

在Python中,内置了re模块来处理正则表达式。使用的时候,只需要import re即可。下面是常用的几个方法:

方法名 说明 (参考表格后面的例子理解)
match 根据给定的模式,从给定的字符串的开始位置匹配,匹配成功则返回匹配的对象
search 根据给定的模式,查找给定的字符串中匹配模式的部分
group 对于有分组的正则表达式,调用group()的时候将返回完整的匹配字符串;当调用group(N)(N从1开始)时,返回第N个分组。如果正则表达式没有分组,则返回完整的匹配。
groups 对于有分组的正则表达式,返回一个包含所有分组匹配的tuple;如果正则表达式没有分组,调用该方法将返回NONE。

关于match和search的区别,我们来通过一个例子了解一下。(请注意,下面的例子采用的3.x的语法)

match的例子

>>> import re
>>> m = re.match(r'hi','This is a dog')
>>> print(m)
None
>>> 

上面的例子中,试图在This is a dog中匹配hi。我们可以看到,实际上This中实际是包含了hi,但正如上面表格中所描述:match会根据给定的正则表达式,从头开始匹配。回到这个例子中,这里的正则表达式是hi,那么从头开始匹配的意思是从h开始匹配,接着是i,完整匹配成功才算是匹配上。在给定的字符串中,是以T开头的,这显然匹配失败了。

search的例子

>>> import re
>>> m = re.search(r'hi', 'This is a dog')
>>> print(m)
<_sre.SRE_Match object; span=(1, 3), match='hi'>

上面的例子,和match例子使用的正则表达式和待匹配字符串一样,但是是可以匹配成功的。原因是,在比对This is a dog的时候,发现T匹配不上则接着网络搜索继续匹配。

group和groups的例子

>>> import re
>>> m = re.match(r'\d{8}','87890987')
>>> m.group()
'87890987'
>>> m = re.match(r'(\d{3})-(\d{8})','010-87890987')
>>> m.group()
'010-87890987'
>>> m.group(1)
'010'
>>> m.group(2)
'87890987'
>>> m.groups()
('010', '87890987')

上面的例子中,第一个例子是无分组的正则表达式,可以匹配8位数字。而第二个例子中,是一个有分组的正则表达式。正则表达式中通过括号来表示分组,因此第二个例子有两个分组,这种情况下:调用group()返回完整的匹配;调用group(N)返回第N个分组;调用groups()则返回所有分组的tuple。

相关文章

网友评论

      本文标题:在Python中使用正则表达式

      本文链接:https://www.haomeiwen.com/subject/yyjkgttx.html