python14--re模块(正则表达式)

作者: minisummer | 来源:发表于2020-08-04 22:59 被阅读0次

python14--re模块(正则表达式)
Python 脚本之统计基因组文件中染色体长度及N碱基数目
python05-正则表达式(二)
python05-正则表达式(一)
一文搞定Python正则表达式
Python 正则表达式——re模块介绍
Python 正则表达式——re模块介绍
python正则表达式1
python正则表达式
Python之re模块

哈喽，大家好！我是minisummer！首先感谢您的关注！
今天给大家分享的内容是python标准库-re模块。

在讲re模块之前，首先我们需要知道正则表达式的基本语法。

正则表达式

正则表达式是一个特殊的字符序列，能方便的检查一个字符串是否与某种模式匹配。re模块使得python拥有全部的正则表达式功能。
正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为"元字符"）组成的文字模式。
正则表达式在线工具：http://tool.chinaz.com/regex/

正则表达式作用

1.做数据校验；
2.替换文本;
3.提取子字符串;
4.查找特定文本。

正则表达式特殊字符

. 匹配除换行符\n之外的任何单字符
? 匹配0或1个字符（非贪婪限定符）
* 匹配0或多个字符（贪婪限定符）
+ 匹配1或多个（贪婪限定符）
^ 匹配输入字符串的开始位置
$ 匹配输入字符串的结束位置
[] 匹配包含在中括号中的任意字符
[^] 匹配包含在中括号中的字符之外的字符
[-] 匹配指定范围的任意单个字符
{ 标记限定符表达式的开始
\ 将下一个字符标记特殊字符或原义字符
| 指明两项之间的一个选择
() 标记一个子表达式的开始和结束位置

正则表达式限定符

. 匹配除换行符\n之外的任何单字符
+ 匹配0或多个字符（贪婪限定符）
? = {0,1}匹配0或1个字符（非贪婪限定符）
{n} 确定匹配n次
{n,} 至少匹配n次
{n,m} 最少匹配n次且最多匹配m次

正则表达式字符簇

[[:alpha:]] 任何字母
[[:digit:]] 任何数字
[[:alnum:]] 任何字母和数字
[[:space:]] 任何空白字符
[[:upper:]] 任何大写字母
[[:lower:]] 任何小写字母
[[:punct:]] 任何标点符号
[[:xdigit:]] 任何16进制的数字，相当于[0-9a-fA-F]

常用的正则表达式

[a-z] #匹配所有的小写字母
[A-Z] #匹配所有的大写字母
[a-zA-Z] #匹配所有的字母
[0-9] #匹配所有的数字
[0-9.-] #匹配所有的数字，句号和减号
[ \f\r\t\n] #匹配所有的白字符
[^a-z] #除了小写字母以外的所有字符
[^\/^] #除了()(/)(^)之外的所有字符
[^"'] #除了双引号(")和单引号(')之外的所有字符
^[a-zA-Z_] $#所有的字母和下划线 ^[[:alpha:]]{3}$ #所有的3个字母的单词
^a $#字母a ^a{4}$ #aaaa
^a{2,4} $#aa,aaa或aaaa ^a{1,3}$ #a,aa或aaa
^a{2,} $#包含多于两个a的字符串 ^[a-zA-Z0-9_]{1,}$ # 所有包含一个以上的字母、数字或下划线的字符串
^[1-9][0-9]{0,} $# 所有的正整数 ^\-{0,1}[0-9]{1,}$ # 所有的整数
^[-]?[0-9]+.?[0-9]+$ # 所有的浮点数

re模块

import re

re_str = "hello this is python 2.7.13 and python 3.4.5"
pattern1 = "python [0-9]\.[0-9]\.[0-9]"
res1 = re.findall(pattern=pattern1,string=re_str)
print(res1) #['python 2.7.1', 'python 3.4.5']

pattern2 = "python [0-9]\.[0-9]\.[0-9]{2,}"
res2 = re.findall(pattern=pattern2,string=re_str)
print(res2) #['python 2.7.13']

# findall()方法：返回一个列表，如果匹配到的话，列表中的元素为匹配到的子字符串，如果没有匹配到，则返回一个空的列表
pattern3 = "python[0-9]\.[0-9]\.[0-9]{2,}"
res3 = re.findall(pattern=pattern3,string=re_str)
print(res3) #[]


re_str = "hello this is python 2.7.13 and Python 3.4.5"
pattern4 = "python [0-9]\.[0-9]\.[0-9]"
# 设置标志flags=re.IGNORECASE，意思为忽略大小写
res4 = re.findall(pattern=pattern4, string=re_str, flags=re.IGNORECASE)
print(res4) # ['python 2.7.1', 'Python 3.4.5']


# 一般采用编译的方式使用python的正则模块，如果在大量的数据量中，编译的方式使用正则性能会提高很多
re_str = "hello this is python 2.7.13 and Python 3.4.5"
re_obj = re.compile(pattern = "python [0-9]\.[0-9]\.[0-9]",flags=re.IGNORECASE)
res = re_obj.findall(re_str)
print(res) #['python 2.7.1', 'Python 3.4.5']


# match方法，类似于字符串中的startwith方法，只是match应用在正则表达式中更加强大，更富有表现力，match函数用以匹配字符串的开始部分，如果模式
# 匹配成功，返回一个SRE_Match类型的对象，如果模式匹配失败，则返回一个None，因此对于普通的前缀匹配，他的用法几乎和startwith一模一样，例如我们要判断data字符串是否以what和是否以数字开头
s_true = "what is a boy"
s_false = "What is a boy"
re_obj = re.compile("what")
print(re_obj.match(string=s_true))  #<re.Match object; span=(0, 4), match='what'>
print(re_obj.match(string=s_false)) #None


# search方法，模式匹配成功后，也会返回一个SRE_Match对象，search方法和match的方法区别在于match只能从头开始匹配，而search可以从
# 字符串的任意位置开始匹配，他们的共同点是，如果匹配成功，返回一个SRE_Match对象，如果匹配失败，返回一个None，这里还要注意，
# search仅仅查找第一次匹配，也就是说一个字符串中包含多个模式的匹配，也只会返回第一个匹配的结果，如果要返回所有的结果，最简单的方法就是findall方法，也可以使用finditer方法


# finditer返回一个迭代器，遍历迭代器可以得到一个SRE_Match对象
re_str = "what is a different between python 2.7.14 and python 3.5.4"
re_obj = re.compile("\d{1,}\.\d{1,}\.\d{1,}")
for i in re_obj.finditer(re_str):
    print(i) #<re.Match object; span=(35, 41), match='2.7.14'> ; <re.Match object; span=(53, 58), match='3.5.4'>

# re模块sub方法类似于字符串中的replace方法，只是sub方法支持使用正则表达式，所以，re模块的sub方法使用场景更加广泛
re_str = "what is a different between python 2.7.14 and python 3.5.4"
re_obj = re.compile("\d{1,}\.\d{1,}\.\d{1,}")
print(re_obj.sub("a.b.c", re_str, count=1)) #what is a different between python a.b.c and python 3.5.4
print(re_obj.sub("a.b.c",re_str,count=2))#what is a different between python a.b.c and python a.b.c
print(re_obj.sub("a.b.c",re_str))#what is a different between python a.b.c and python a.b.c


# re模块的split方法和python字符串中的split方法功能是一样的，都是将一个字符串拆分成子字符串的列表，区别在于re模块的split方法能够
re_str = "what is a different between python 2.7.14 and python 3.5.4 USA:NewYork!Zidan.FRA"
# 使用. 空格 : !分割字符串，返回的是一个列表
re_obj = re.compile("[. :!]")
print(re_obj.split(re_str)) #['what', 'is', 'a', 'different', 'between', 'python', '2', '7', '14', 'and', 'python', '3', '5', '4', 'USA', 'NewYork', 'Zidan', 'FRA']

# 大小写不敏感设置
# re.compile(flags=re.IGNORECASE)


# 非贪婪匹配
s = "Beautiful is better than ugly.Explicit is better than impliciy."
re_obj = re.compile("Beautiful.*y\.")
print(re_obj.findall(s))#['Beautiful is better than ugly.Explicit is better than impliciy.']
re_obj = re.compile("Beautiful.*?\.")
print(re_obj.findall(s)) #['Beautiful is better than ugly.']

s = "=aa1239d&&& 0a ()--"
rep = re.compile("\w+(&+)")
print(rep.findall(s))# ['&&&']
print(rep.search(s).group())# aa1239d&&&
print(rep.search(s).group(1))# &&&

参考文章：https://www.cnblogs.com/bainianminguo/p/10657631.html

请大家多多指教~
以上内容希望对你有帮助，有被帮助到的朋友欢迎点赞，评论。
注：转载请注明出处，商用请征得作者本人同意，谢谢！！！

python14--re模块(正则表达式)
哈喽，大家好！我是minisummer！首先感谢您的关注！今天给大家分享的内容是python标准库-re模块。在...
Python 脚本之统计基因组文件中染色体长度及N碱基数目
模块介绍 re模块 re模块是Python中的正则表达式调用模块，在python中，通过将正则表达式内嵌集成re模...
python05-正则表达式(二)
正则表达式(二) re模块(regex) python中没有正则表达式的函数，需要引入内置的re模块 re模块方法...
python05-正则表达式(一)
正则表达式 python无正则表达式,通过别的模块re(regex模块)应用过来import re # 引入re模...
一文搞定Python正则表达式
本文对正则表达式和Python中的re模块进行详细讲解什么是正则表达式正则表达式作用元字符及含义 re模块详...
Python 正则表达式——re模块介绍
Python 正则表达式 re 模块使 Python 语言拥有全部的正则表达式功能，re模块常用方法： re.ma...
Python 正则表达式——re模块介绍
Python 正则表达式 re 模块使 Python 语言拥有全部的正则表达式功能，re模块常用方法： re.ma...
python正则表达式1
python正则表达式1 re 模块 re 模块使 Python 语言拥有全部的正则表达式功能。可用于匹配文字,校...
python正则表达式
正则表达式元字符 re模块:
Python之re模块
一、正则表达式 re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则...