正则表达式
正则表达式是一个特殊的字符序列,用于检查字符串是否与某种模式匹配
常用匹配规则
模式 | 描述 |
---|---|
\w | 匹配字母、数字及下划线 |
\W | 匹配不是字母、数字及下划线的字符 |
\s | 匹配任意空白字符,等价于[\t\n\r\f] |
\S | 匹配任意非空字符 |
\d | 匹配任意数字,等价于[0-9] |
\D | 匹配任意非数字的字符 |
\A | 匹配字符串开头 |
\Z | 匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串 |
\z | 匹配字符串结尾,如果存在换行,同时还会匹配换行符 |
\G | 匹配最后匹配完成的位置 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
^ | 匹配一行字符串的开头 |
$ | 匹配一行字符串的结尾 |
. | 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符在内的任意字符 |
[...] | 用来表示一组字符,单独列出 |
[^...] | 不在[]中的字符 |
* | 匹配0个或多个表达式 |
+ | 匹配1个或多个表达式 |
? | 匹配0个或1个前面的正则表达式定义的片段 |
{n} | 精确匹配n个前面的表达式 |
{n,m} | 精确匹配n到m次由前面正则表达式定义的片段,贪婪方式 |
a|b | 匹配a或b |
() | 匹配括号内的表达式,也表示一个组 |
常用正则表达式
- 匹配中文字符
[\u4e00-\u9fa5]
- 匹配双字节字符(包括汉字在内)
[^\x00-\xff]
- 匹配空白行
\n\s*\r
- 匹配网址
[a-zA-z]+://[^\s]*
Python re 模块
match()
- match()方法从字符串起始位置匹配正则表达式(更适合检测某个字符串是否符合某个正则表达式的规制)
- match()方法中第一个参数传正则表达式,第二个参数传入待匹配字符串
re.match('匹配正则表达式',待匹配字符串[,修饰符])
- 若匹配成功,返回SRE_Match对象,该对象有group()和span()两个方法
- group()方法可以输出匹配到的内容
- span()方法可以输出匹配的范围
匹配目标
- ()标记一个字表达式的开始和结束位置,被标记的每个子表达式依次对应一个分组
- 调用group()方法输入分组的索引可提取结果
通用匹配
- .(点)可以匹配任意字符(除换行符"\n")
- *(星号)表示匹配0或多个表达式
- ?(问号)表示匹配0或1个前面的正则表达式定义的片段,非贪婪方式
- .*组合以贪婪匹配的方式匹配(尽可能多的)任意字符
- .*?组合以非贪婪匹配的方式匹配任意字符
修饰符
正则表达式可指定可选标志修饰符控制匹配模式
修饰符 | 描述 |
---|---|
re.I | 使匹配对大小写不敏感 |
re.L | 做本地化识别(locale-aware)匹配 |
re.M | 多行匹配,影响^和$ |
re.S | 使.匹配包括换行在内的所有字符 |
re.U | 根据Unicode字符集解析字符,影响\w、\W、\b、\B |
re.X | 该标志通过给予更灵活的格式以便将正则表达式写得更容易理解 |
转义匹配
- 用于正则匹配模式的特殊字符前加反斜线(\)表示转义
- 建议使用Python的r前缀(r'str'),以避免考虑转义的问题
search()
- search()方法在匹配时会扫描整个字符串,返回第一个成功匹配的结果
findall()
- findall()方法搜索整个字符串,返回匹配正则表达式的所有内容
sub()
- sub()方法用于修改文本
content = re.sub('被修改字符串','替换字符串','原字符串')
compile()
- compile()方法将正则字符串编译成正则表达式对象,便于后续匹配复用
网友评论