正则表达式

作者: 转身后的那一回眸 | 来源:发表于2017-09-23 10:31 被阅读20次

Linux命令行与Shell脚本编程大全-shell正则表达式
正则相关
正则表达式系列-1
正则表达式
Python基础入门 - 正则表达式与综合实战
Java正则表达式参考
正则表达式
Python爬虫(十)_正则表达式
python正则表达式
正则表达式

一、什么正则表达式？

正则表达式又称之为规则表达式，通常用来检索、替换那些符合某些规则的文本。
正则表达式是对字符串操作的一种逻辑公式，就是实现定义好的一些特定的字符、以及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
说白了，正则表达式就相当于提前预定了一个“模板”，然后给定文本与这个“模板”进行比对，如果符合这个“模板”的规则就会被找到从而进行一系列的操作。

二、正则表达式的规则

image.png

三、python内置模块re

在python语言中提供了一个使用正则表达式的模块--re模块

re模块使用的一般步骤：

1、使用compile()方法将正则表达式编译成为一个pattern对象

2、通过pattern对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个Match对象

3、最后使用Match对象提供的属性和方法获得信息，根据需要进行其他操作

现在开始看看re模块中有哪些方法

re.compile()函数

此函数用于将正则表达式编译成一个Pattern对象，之后就可以通过调用pattern对象的一系列方法进行匹配查找了。

1、match()方法：从起始位置开始查找，一次匹配

2、search()方法：从任何位置开始查找，一次匹配

3、findall()方法：全部匹配，返回列表

4、finditer()方法：全部匹配，返回迭代器

5、split()方法：分割字符串，返回列表

6、sub()方法：替换

编译正则表达式模式，返回一个对象的模式。（可以把那些常用的正则表达式编译成正则表达式对象，这样可以提高一点效率。）
格式：

re.compile(pattern,flags=0)

pattern: 编译时用的表达式字符串。
flags 编译标志位，用于修改正则表达式的匹配方式，如：是否区分大小写，多行匹配等。常用的flags有：

标志	含义
re.S(DOTALL)	使.匹配包括换行在内的所有字符
re.I（IGNORECASE）	使匹配对大小写不敏感
re.L（LOCALE）	做本地化识别（locale-aware)匹配，法语等
re.M(MULTILINE)	多行匹配，影响^和$
re.X(VERBOSE)	该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
re.U	根据Unicode字符集解析字符，这个标志影响\w,\W,\b,\B

#!/usr/bin/env python2
# -*- coding:utf-8 -*-
#导入re模块
import re
pattern = re.compile(r"\d+") #匹配至少一个数字

pattern对象名.match(string[,pos[,endpos]])

string:待匹配字符串
pos：可选参数，起始位置，默认值为0
endpos:可选参数，结束位置，默认值为字符串长度

>>> import re
>>> pattern = re.compile(r'\d+')  # 用于匹配至少一个数字

>>> m = pattern.match('one12twothree34four')  # 查找头部，没有匹配
>>> print m
None

>>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
>>> print m
None

>>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
>>> print m                                         # 返回一个 Match 对象
<_sre.SRE_Match object at 0x10a42aac0>

>>> m.group(0)   # 可省略 0
'12'
>>> m.start(0)   # 可省略 0
3
>>> m.end(0)     # 可省略 0
5
>>> m.span(0)    # 可省略 0
(3, 5)

在上面，当匹配成功时返回一个 Match 对象其中：
1、group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
2、start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
3、end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
4、span([group]) 方法返回 (start(group), end(group))

pattern对象名.search(string[,pos[,endpos]])

search方法用于查找字符串的任何位置，它也是一次匹配，只要找到了一个匹配结果就返回；如果匹配成功，就返回一个Match对象，匹配失败返回None；（参数的含义同上）

#!/usr/bin/env python2
# -*- coding: utf-8 -*-

import re
# 将正则表达式编译成 Pattern 对象
pattern = re.compile(r'\d+')
# 使用 search() 查找匹配的子串，不存在匹配的子串时将返回 None
# 这里使用 match() 无法成功匹配
m = pattern.search('hello 123456 789')
if m:
    # 使用 Match 获得分组信息
    print 'matching string:',m.group()
    # 起始位置和结束位置
    print 'position:',m.span()

pattern对象名.findall(string[,pos[,endpos]])

match()和search()都是一次匹配，而findall()是多次匹配，它会搜索遍历整个字符串，获得所有满足匹配的结果；搜索的结果以一个列表的形式返回，匹配到结果返回所有匹配的字串的列表，如果没有匹配则返回一个空列表。

#!/usr/bin/env python2
# -*- coding: utf-8 -*-
import re

#re模块提供一个方法叫compile模块，提供我们输入一个匹配的规则
#然后返回一个pattern实例，我们根据这个规则去匹配字符串
pattern = re.compile(r'\d+\.\d*')

#通过partten.findall()方法就能够全部匹配到我们得到的字符串
result = pattern.findall("123.141593, 'bigcat', 232312, 3.15")

#findall 以 列表形式 返回全部能匹配的子串给result
for item in result:
    print item

pattern对象名.finditer(string[,pos[,endpos]])

finditer 方法的行为跟 findall 的行为类似，也是搜索整个字符串，获得所有匹配的结果。但它返回一个顺序访问每一个匹配结果（Match 对象）的迭代器。

#!/usr/bin/env python2
# -*- coding: utf-8 -*-

import re
pattern = re.compile(r'\d+')

result_iter1 = pattern.finditer('hello 123456 789')
result_iter2 = pattern.finditer('one1two2three3four4', 0, 10)

print type(result_iter1)
print type(result_iter2)

print 'result1...'
for m1 in result_iter1:   # m1 是 Match 对象
    print 'matching string: {}, position: {}'.format(m1.group(), m1.span())

print 'result2...'
for m2 in result_iter2:
    print 'matching string: {}, position: {}'.format(m2.group(), m2.span())

pattern对象名.split(string[,maxsplit])

split()方法按照能够匹配的字串将字符串分割后返回列表，maxsplit用于指定最大分割次数，不指定将全部分割

#!/usr/bin/env python2
# -*- coding: utf-8 -*-

import re
p = re.compile(r'[\s\,\;]+')
print p.split('a,b;; c   d')

pattern对象名.sub(repl, string[, count])

其中，repl 可以是字符串也可以是一个函数：
1、如果 repl 是字符串，则会使用 repl 去替换字符串每一个匹配的子串，并返回替换后的字符串，另外，repl 还可以使用 id 的形式来引用分组，但不能使用编号 0；
2、如果 repl 是函数，这个方法应当只接受一个参数（Match 对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
3、count 用于指定最多替换次数，不指定时全部替换。

#!/usr/bin/env python2
# -*- coding: utf-8 -*-
import re
p = re.compile(r'(\w+) (\w+)') # \w = [A-Za-z0-9]
s = 'hello 123, hello 456'

print p.sub(r'hello world', s)  # 使用 'hello world' 替换 'hello 123' 和 'hello 456'
print p.sub(r'\2 \1', s)        # 引用分组

def func(m):
    return 'hi' + ' ' + m.group(2)

print p.sub(func, s)
print p.sub(func, s, 1)         # 最多替换一次

四、贪婪模式和非贪婪模式

1、贪婪模式：在整个表达式匹配成功的前提下，尽可能多的匹配（*）；
2、非贪婪模式：在整个表达式匹配成功的前提下，尽可能的匹配（？）；
3、在python中默认的是贪婪模式

Linux命令行与Shell脚本编程大全-shell正则表达式
本章内容：定义正则表达式了解基本正则表达式扩展正则表达式创建正则表达式定义正则表达式正则表达式是你定义...
正则相关
正则表达式基本语法正则表达式常见字符正则表达式特殊字符正则表达式数量词正则表达式边界匹配正则表达式逻辑或...
正则表达式系列-1
正则表达式系列-1正则表达式系列-2正则表达式系列-3正则表达式系列-4 什么是正则表达式正则表达式就是用事先定...
正则表达式
正则表达式 - 教程正则表达式 - 简介正则表达式 - 语法正则表达式 - 元字符正则表达式 - 运算符优先级正则...
Python基础入门 - 正则表达式与综合实战
1. 初识正则表达式 1.1 介绍步骤介绍正则表达式入门及应用正则表达式的进阶正则表达式案例 1.2 正则表达式...
Java正则表达式参考
Java正则表达式入门 java正则表达式应用深入浅出之正则表达式（一）深入浅出之正则表达式（二）正则表达式...
正则表达式
正则表达式正则表达式就是记录文本规则的代码正则表达式常用的元字符正则表达式常用的限定符正则表达式举例:这里...
Python爬虫(十)_正则表达式
本篇将介绍python正则表达式，更多内容请参考：【python正则表达式】什么是正则表达式正则表达式，又称规...
python正则表达式
本篇将介绍python正则表达式，更多内容请参考：【python正则表达式】什么是正则表达式正则表达式，又称规...
正则表达式
了解正则表达式基本语法能够使用JavaScript的正则对象正则表达式简介什么是正则表达式正则表达式：用于...

正则表达式

一、什么正则表达式？

二、正则表达式的规则

三、python内置模块re

re模块使用的一般步骤：

1、使用compile()方法将正则表达式编译成为一个pattern对象

2、通过pattern对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个Match对象

3、最后使用Match对象提供的属性和方法获得信息，根据需要进行其他操作

re.compile()函数

1、match()方法：从起始位置开始查找，一次匹配

2、search()方法：从任何位置开始查找，一次匹配

3、findall()方法：全部匹配，返回列表

4、finditer()方法：全部匹配，返回迭代器

5、split()方法：分割字符串，返回列表

6、sub()方法：替换