美文网首页
正则表达式基操

正则表达式基操

作者: 遇见那天的雨真大 | 来源:发表于2018-11-27 17:26 被阅读0次

1.什么是正则表达式

正则表达式就是字符匹配的工具,是由正则符号普通字符组成,来匹配不同规律的字符串。

2.python对正则表达式的支持。

python中提供了一个re模块 用来支持正则表达式
fullmuch(正则表达式,字符串) - 用正则表达式去完全匹配,如果匹配成功,返回一个匹配结果,失败返回None
python中的正则表达式的写法:将正则内容写在字符串中,一般这个字符串前面会加r\R

1.普通字符

普通字符在正则表达式中,代表字符本身。

#匹配字符串,第一个字符a,第二个字符b,第三个字符也是最后一个字符“c”
re_str = r"abc"
result = re.fullmatch(re_str,"abc")
print(result)

3 . (匹配任意字符)

在正则表达式中 . 出现的位置,可以匹配一个任意字符
注意:一个.只能匹配一个字符

re_str = r"a.c"
result = re.fullmatch(re_str,"ahc")
print("....",result)

4 \w(匹配字母数字或者下划线)

在这正则表达式中,\w出现的位置,可以匹配一个任意的字母,数字或者下划线
一个\w只能匹配一个字符,\w出现的文字,可以匹配任意的字母,数字下划线
(其实亦可以匹配Unicode编码中,除了ASCII码剩下的部分)中文也可匹配

#匹配一个长度是6的下划线,前三位字母数字中文等,后面是任意字符i字符
re_str = r"\w\w\w..."
result = re.fullmatch(re_str,"_5禹dsa")
print("\w",result)

5 \s匹配空白字符

空白字符包括:空格,制表符,和换行符,(\t,\n,\r)

#匹配一个长度是4的字符串,并且字符串前两位是字母数字或者下划线(中文),中间一个空白,最后是数字字母下划线
re_str = r"\w\w\s\w"
result = re.fullmatch(re_str,"da\t8")
print("\s",result)
print(len("da\t8"))

6 \d(匹配数字字符)

#匹配一个长度是5的字符串,字符串的前三位是数字字符,后面两个是任意字符
re_str = r"\d\d\d.."
result = re.fullmatch(re_str,"536da")
print("\d",result)

7 \b(检测单词边界)

注意:\b是检测\b出现的位置是否是单词边界,不会对字符进行匹配。
当正则表达式中出现了\b,匹配的时候去掉\b,匹配成功后再看\b出现的位置是否是单词边界。
单词边界:字符串开头,字符串结尾,单词开头,单词结尾,标点符号,空白符号(只要可以将两个单词区分开的符号都属于单词边界。)

#匹配字符串“hello,word并且要求w前面是单词边界”
re_str = r"hello,\bword"
result = re.fullmatch(re_str,"hello,word")
print(result)

8^ 检测字符串开头

match和fullmatch中没有意义,serach和findall中有意义.

#匹配一个字符串前面三个是The,后面两个任意字符
re_str = r"^The.."
result = re.fullmatch(re_str,"The2a")
print(result)
re_str = "The.."
print("search:",re.search(re_str,"xxxThe2:"))

9 $(检测字符串中结尾)

match和fullmatch中没有意义,serach和findall中有意义.

re_str =r"..\dThe$"
result = re.fullmatch(re_str,"aa5The")
print("$",result)
re_str =r"..\dThe"  #没有$
print("search:",re.search(re_str,"aa5Thesad"))

\大写字母 对应的功能格式 \小写字母 功能区分

\W - 匹配非数字字母下划线

\D - 匹配非数字字符

\S - 检测非空白字符

\B - 检测非单词边界

re_str = r"\d\D\s\s\Ba"
result = re.fullmatch(re_str,"94\t\ta")
print("前面有一个\s是单词边界:",result) #前面有一个\s是单词边界: None

re_str = r"\d\D\s\w\Ba"
result = re.fullmatch(re_str,"9h\t_a")
print("\B前面有一个不是单词边界:",result)
--- ---
[字符1 - 字符2] 表示字符1到字符2(注意:要求字符1的编码值要小于字符2的编码值。)
[a-z] 表示匹配所有小写字母
[A-Z]] 匹配所有的大写字母
[a-zA-Z] 匹配所有字母
[\u4e00 - \u9fa5]
[字符1字符2-] 这儿的减号就表示减号本身
re_str = r"[1-7]100[a-z]"
result = re.fullmatch(re_str,"5100g")
print("[字符1 - 字符2]11",result)
#匹配1-7的数字字符,第二个是abc-中的一个,第三个是小写字母
re_str = r"[1-7][abc-][a-z]"
result = re.fullmatch(re_str,"5-z")
print("[字符1 - 字符2]22",result)

11[^字符集] - 匹配不在字符集中的任意字符

--- ---
[^abc]不是abc
[^\d] 除了数字字符的任意字符
[^a-z] 匹配除小写的其他任意字符
[abc^] 这里的^ 表示 ^。
.#三个字符,第一个不是1-7,第二个不是abc-,第三个不是a-z
re_str = r"[^1-7][^abc-][^a-z]"
result = re.fullmatch(re_str,"0H罗")
print("^[字符1 - 字符2]22",result)

2。正则控制匹配次数

1.匹配0次或多次

--- ---
a*]a出现0次或者多次 "","a","aa"
\d* 任意数字出现多次或者零次
[abc]* abc出现0次或者多次
[A-F]* A到F中任意字符出现多次或者0次

注意哦:在[ ]外面的前面需要一个字符或者一个匹配字符的符号,不能单独用*

print(re.fullmatch(r"a*",""),re.fullmatch(r"a*",""))
print(re.fullmatch(r"a*b","aaab"),re.fullmatch(r"a*b","aaab"))
print("\d*",re.fullmatch(r"\d*","12563"))
print("[abc]*",re.fullmatch(r"[abc]*","abc"),re.fullmatch(r"[abc]*","aaa"))

2.# +(匹配一次或者多次)

a+ - a至少出现1次
\d+ -数字字少出现一次

print("a+",re.fullmatch(r"a+b","ab"),re.fullmatch(r"a+b","aaab"))

3 ? (出现0次或者1次)

a? - a出现0次或者1次,“”,“a”可以匹配

# 写出一个正则表达式(整数和负数都可以匹配)例如:123,-120
re_str = r"[-+]?[1-9]\d*"
result = re.fullmatch(re_str,"+30")
print("整数和负数都可以匹配",result)

4.{ }的用法

{N} - 匹配N次,a{3}:匹配3个“a”
{M,N} - 匹配M到N次,匹配三个a,四个a,或者5个a
{,N}- 最多匹配N次(0-N) 例如:a{,3}“”,“a”,“aa”"aaa"
{M,} - 至少匹配M次

#练习:输入密码。密码要求,字母和数字组成,数字不开头,6-12位,给出提示是否正确
pw = input("输入密码:")
re_str = r"[a-zA-Z][\da-zA-Z]{5,11}"
result = re.fullmatch(re_str,pw)
print(result)
if result:
    print("输入成功!")
else:
    print("输入有误!")

3捕获与贪婪

1 分之.

条件1 | 条件2 :匹配条件1或者条件2.
\d | [a-z] - [\da-z]
\d{2} | [a-z] :匹配两个数字或者1个a-z
a\d{2}|\w{2}
** 注意:正则中的分之也会出现短路,当条件1可以匹配,就不会再用第二个匹配**

print("分之",re.fullmatch(r"\d{2}|[a-z]","z"))
print("分之",re.fullmatch(r"a\d{2}|\w{2}","__"))
# 习:写一个正则表达式,匹配所有的数。正的,负数,0
re_str = r'[-+]?[1-9]\d*[.]?\d*|[+-]?0[.]\d+|0'
print(re.fullmatch(re_str, '-0.02'))

4 - 捕获和分组

  • a.分组 - 将括号中的内容作为一个整体
# 匹配一个字符串,前三位是'abc',后三位是三个数字或者三个大写字母
re_str1 = r'abc\d{3}|abc[A-Z]{3}'
re_str2 = r'abc(\d{3}|[A-Z]{3})'
print(re.fullmatch(re_str2, 'abc123'))
re_str = r'(\d[a-z]){3}'
print(re.fullmatch(re_str, '2s3f4h'))
  • b.捕获
    通过正则表达式获取符合条件的子串的时候,可以在正则表达式中加括号,匹配后只获取括号里面出现的内容
    re.findall(正则表达式,字符串) - 在字符串中去获取符合正则表达式条件的所有子串,返回的是列表
str1 = "dasdad454a13ada2x1ad56a44g4fdad"
# 捕获括号中的内容
print(re.findall(r"a\d+",str1))
print(re.findall(r"a(\d+)",str1))
  • c.重复匹配
    带多个分组的正则表达式中可以分组的后面通过添加\数字来重复前面第几个分组中匹配到的内容.
    说明:\数字 - 这儿的数字代表前面第几个分组\1代表第一个分组,\2代表一个分组
re_str = r"\d{3}([a-z]{2})a\1"
print("第一分组重复",re.fullmatch(re_str,"234heahe"))
re_str = r"(\d{3})([a-z]{2})a\1{2}\2"
print("第一分组重复2,第一分组重复1",re.fullmatch(re_str,"123bba123123bb"))
re_str = r"(\d{3})L\1{2}([a-z]{2})a\2"
print("分组重复可以放前面去",re.fullmatch(re_str,"123L123123bbabb"))

3.贪婪

匹配次数后面加?就是贪婪匹配“*?,+?,??.{M,N}?,{M,}?

re_str = "a.+b"
str1 = "xxxahdjblkaluiihjlb"
print("非贪婪",re.findall(re_str,str1))

re_str = "a.+?b"
str1 = "xxxadfgjblkaluibihjalb"
print("贪婪",re.findall(re_str,str1))

4 转义字符

在正则表达式中可以有特殊意义或者特殊功能的符号前加\来取消其特殊功能

在正则表达式中可以在有特殊意义或者特殊功能的符号前加\来取消其特殊功能
\\w  - 代表两个字符,分别是'\'和w
\+ - 代表+字符
\* - 代表*字符
\? - 代表?字符
[], (), {}表示字符的时候,前面也要加\

注意:在中括号中, \必须加\表示\本身,^在最前面加\表示^本身, -在两个字符之间加\表示-本身
re_str = r'\\w-\d{3}'
print(re.fullmatch(re_str, '\w-232'))

re_str = r'a\+\(\d{2}\)'
print(re.fullmatch(re_str, 'a+(23)'))

re_str = r'[\^a1\-9]'
print(re.fullmatch(re_str, '3'))

3.re模块

1.compile(了解)

compile(正则表达式) - 将正则表达式转换成正则表达式对象
转换成对象后可以通过对象调用对象方法

re_str = '\d{3}'
re_obj = re.compile(re_str)

# 调用模块中的函数
print(re.fullmatch(re_str, '234'))
# 调用对象方法
print(re_obj.fullmatch('234'))

2.match和fullmatch

  • a. fullmatch(正则表达式, 字符串) - 完全匹配,从字符串开头匹配到字符串结束
  • b. match(正则表达式, 字符串) - 不完全匹配,只匹配字符串开头
    匹配成功返回匹配对象,匹配失败返回None
re_str = r"\d[A-Z]{2}"
result = re.match(re_str,"8HHdjadnksan")
print("只是匹配字符串开头:",result)

匹配对象特别篇

  • 1.span -匹配到内容的范围(开始下标,结束下标)
    匹配对象.span()获取整个正则表达式匹配到的范围
    匹配对象.span(n)获取正则表达式中第n个分组匹配到的范围(前提是有分组)
re_str = r"\d([A-Z]{2})"
result = re.match(re_str,"8HHdjadnksan")
print("整个范围",result.span())
print("匹配对象的范围",result.span(1))
  • 2.start和end - 获取匹配结果的开始下标和结束下标
    匹配对象.start()/匹配对象.end()- 获取整个正则表达式匹配到的开始下标/结束下标
    匹配对象.start(n)获取正则表达式中第n个分组匹配到的开始/结束下标
re_str = r"\d[A-Z]{2}"
result = re.match(re_str,"8HHdjadnksan")
print("开始下标",result.start())
print("结束下标",result.end())
re_str = r"\d([A-Z]{2})"
result = re.match(re_str,"8HHdjadnksan")
print("分组开始下标",result.start(1))
print("分组结束下标",result.end(1))
  • 3.group - 获取匹配到的内容
    匹配对象.group() - 获取正则表达式匹配带的内容
    匹配对象.group(n) - 获取正则表达式第n个分组的内容
re_str = r"\d([A-Z]{2})"
result = re.match(re_str,"8HHdjadnksan")
print("整个表达式结果",result.group())

re_str = r"\d([A-Z]{2})"
result = re.match(re_str,"8HHdjadnksan")
print("第一组的结果",result.group(1))
  • 4.string - 获取用来匹配的原字符串
    匹配对象.string
re_str = r"\d[A-Z]{2}"
result = re.match(re_str,"8HHdjadnksan")
print("整个表达式结果",result.string)

3.search

search(正则表达式,字符串) - 匹配字符串中第一个满足正则表达式的子串,如果匹配成功,
返回匹配对新疆爱那个,否则返回None

str1 = "abc123dsfkjkjaskdjd"
result = re.search(r"\d{3}[a-z]{2}",str1)
print(result)

4.split(正则表达式,字符串)

split(正则表达式,字符串) - 在字符串中,按照满足正则表达式条件的子串对字符进行切割

str1 = "ads5had5f-ha9rda6adg"
result = re.split(r"\d+",str1)
print("split切割:",result)
result = re.split(r"\d+|[+*-]+",str1)
print("split切割:",result)

5 sub(正则表达式,新子串,字符串)

sub(正则表达式,新子串,字符串)用新的字符串替换字符串中满足正则表达式的子串,返回一个替换后的子串

str1 = "你是傻   叉,操你大爷的,Fuck you"
result = re.sub(r"[丫艹操]|[Fuck]|傻\s*叉","*",str1)
print("sub替换:",result)

6.findall(正则表达式,字符串) - 在字符串中获取满足正则表达式的所有字符串,返回一个列表
列表元素是字符串
注意:
正则表达式中有一个分组,结果是列表中只取分组匹配到的结果。
如果正则表达式分组的个数大于1,结果是一个列表,列表中的元素是元组

str1 = "dafdd5as45d4ad4as4d54sg545f4j5h4j54ds=="
result = re.findall(r"[a-zA-Z]{2,}\d+[a-z]+",str1)
print("不加贪婪",result)
str1 = "dafdd5as45dds4ad4as4dda54dasg545f4j5h4j54ds=="
result = re.findall(r"[a-zA-Z]{2,}(\d+)([a-z]+?)",str1)
print("加贪婪",result)
str1 = "dafdd5as45d4ad4as4d54sg545f4j5h4j54ds=="
result = re.findall(r"[a-zA-Z]{2,}(\d+)([a-z]+?)",str1)
print("加括号元组",result)

7.finditer(正则表达式,字符串)

获取字符串中满足正则表达式的内容,返回结果是一个迭代器
迭代器中的元素就是匹配对象

str1 = "dafdd5as45d4ad4as4d54sg545f4j5h4j54ds=="
result = re.finditer(r"[a-zA-Z]{2,}\d+[a-z]+",str1)
print("finditer迭代器",result)
print(next(result))
\
#思考 :写一个自己的finderiter
def yt_finditer(patteran,string):
    re1 = re.finditer(patteran,string)
    while re1:
        yield re1
        string = string[re1.end():]
        re1 = re.finditer(patteran, string)
str1 = "dafdd5as45d4ad4as4d54sg545f4j5h4j54ds=="
result = yt_finditer(r"[a-zA-Z]{2,}\d+[a-z]+",str1)
print("取结果",next(result))

相关文章

  • 正则表达式基操

    1.什么是正则表达式 正则表达式就是字符匹配的工具,是由正则符号和普通字符组成,来匹配不同规律的字符串。 2.py...

  • MONGODB基操

    增 db.colname.insert() 删 db.colname.remove() 改 db.colname....

  • MYSQL基操

    sudo service musql start 启动mysql mysql -u root -p 输入密码,进入...

  • vim基操

    推出 q:退出q!:如果对文件作了修改,无法用 q 退出,此时 q! 表示丢弃修改并退出x...

  • photoshop基操

    修改标尺单位ctrl+r 显示隐藏标尺 图片放大缩小(ctrl+-、alt滑轮)左右移动(ctrl滑轮) 隐藏显示...

  • git基操

    一.git 简介 git官方文档-中文版 区块解释工作区:就是你现在写代码的地方,暂存区:在工作区修改的记录保存的...

  • pyinstaller基操

  • Linux Day17:正则表达式

    REGEXP: REGular EXPressionPattern 正则表达式: Basic REGEXP : 基...

  • docker入门基操~~~

    # Docker基本使用方式 - [Window 使用 Docker 创建lnmp环境 ](#introduct...

  • python基操redis

网友评论

      本文标题:正则表达式基操

      本文链接:https://www.haomeiwen.com/subject/idhnqqtx.html