在Python中使用正则表达式

作者: 大聖Jonathan | 来源:发表于2017-03-02 17:32 被阅读0次

Python--正则匹配
python中使用正则表达式
阿里程序员总结的：Python正则表达式的7个使用典范
你不知道的Python正则表达式的7个使用典范
Python正则表达式的7个使用典范！
Python正则表达式的7个使用典范
python正则表达式概述
Python Lib -- 正则表达式
[转]python正则表达式(一) 函数使用
Python中的正则表达式的使用

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。—— 百度百科

Python语言包含了处理正则表达式的引擎，在介绍如何使用Python处理正则表达式之前，先来了解一下常用的正则表达式语法，请看下表：

语法	解释说明	正则表达式	匹配的字符串
literal	完整匹配给定的字符串	foo	foo
re1\|re2	匹配给定的字符串re1或者re2	foo\|bar	foo bar
.	匹配除了\n外的任意单个字符	b.b	bab
^	匹配字符串的开头部分	^Dear	DearAll
$	匹配字符串的结尾部分	End$	Happy End (Search)
*	匹配前一个字符0次或者多次	abc*	ab abccc
+	匹配前一个字符1次或者多次	abc+	abc abccc
?	匹配前一字符0次或者1次	abc?	ab abc
{N}	匹配前一个字符N次	ab{3}c	abbbc
{M, N}	匹配前一个字符M到N次。如果M省略，则匹配0到N次；如果N省略，则匹配M到无限次	ab{2,5}c	abbc abbbbc
[...]	匹配中括号中的任意单一字符	a[aeiou]c	aac aic auc
[x-y]	匹配中括号中的指定范围的任意单一字符	a[0-9]c a[A-Za-z]c	a5c ahc
[ ^ ...]	不匹配中括号中的任意单一字符，或者任意指定范围内的单一字符	a[^aiou]c<br>a[A-Za-z]c	abc a0c
(...)	匹配一组字符串，其中...可以是通过正则表达式表示	a(abc\|def)c a(a*b)c	adefc aaaaabc
\d	匹配任意的数字，与[0-9]类似。（\D则相反，不匹配任何的数字）	data\d+.txt	data001.txt
\w	匹配任意的字母和数字，与[A-Za-z0-9_]。（\W则相反，不匹配任何的数字字母）	\w+@\w+.com	匹配邮件地址xxx@yyy.com
\b	匹配字符串中任意位置的开始部分（要和^区分开）。举例来说，\bthe可匹配一个字符串中以the开头的任意单词。\B和\b相反，匹配字符串中不以某某开始的部分	\bthe	the man is cool. He is in the room.

在Python中，内置了re模块来处理正则表达式。使用的时候，只需要import re即可。下面是常用的几个方法：

方法名	说明 (参考表格后面的例子理解)
match	根据给定的模式，从给定的字符串的开始位置匹配，匹配成功则返回匹配的对象
search	根据给定的模式，查找给定的字符串中匹配模式的部分
group	对于有分组的正则表达式，调用group()的时候将返回完整的匹配字符串；当调用group(N)(N从1开始)时，返回第N个分组。如果正则表达式没有分组，则返回完整的匹配。
groups	对于有分组的正则表达式，返回一个包含所有分组匹配的tuple；如果正则表达式没有分组，调用该方法将返回NONE。

关于match和search的区别，我们来通过一个例子了解一下。（请注意，下面的例子采用的3.x的语法）

match的例子

>>> import re
>>> m = re.match(r'hi','This is a dog')
>>> print(m)
None
>>>

上面的例子中，试图在This is a dog中匹配hi。我们可以看到，实际上This中实际是包含了hi，但正如上面表格中所描述：match会根据给定的正则表达式，从头开始匹配。回到这个例子中，这里的正则表达式是hi，那么从头开始匹配的意思是从h开始匹配，接着是i，完整匹配成功才算是匹配上。在给定的字符串中，是以T开头的，这显然匹配失败了。

search的例子

>>> import re
>>> m = re.search(r'hi', 'This is a dog')
>>> print(m)
<_sre.SRE_Match object; span=(1, 3), match='hi'>

上面的例子，和match例子使用的正则表达式和待匹配字符串一样，但是是可以匹配成功的。原因是，在比对This is a dog的时候，发现T匹配不上则接着网络搜索继续匹配。

group和groups的例子

>>> import re
>>> m = re.match(r'\d{8}','87890987')
>>> m.group()
'87890987'
>>> m = re.match(r'(\d{3})-(\d{8})','010-87890987')
>>> m.group()
'010-87890987'
>>> m.group(1)
'010'
>>> m.group(2)
'87890987'
>>> m.groups()
('010', '87890987')

上面的例子中，第一个例子是无分组的正则表达式，可以匹配8位数字。而第二个例子中，是一个有分组的正则表达式。正则表达式中通过括号来表示分组，因此第二个例子有两个分组，这种情况下：调用group()返回完整的匹配；调用group(N)返回第N个分组；调用groups()则返回所有分组的tuple。