美文网首页
正则表达式

正则表达式

作者: NJingZYuan | 来源:发表于2019-08-23 20:49 被阅读0次

    “正则表达式”是可以匹配文本片段的模式。用来匹配、提取、或替换文本或字符串中的片段、子串。

    1. 字符 => 匹配单个字符
    字符 说明 示例 匹配结果
    普通字符 匹配自身 abc abc
    . 匹配除换行符 \n 外的任意一个字符(在DOTALL模式中也能匹配换行符) a.c abc
    acc
    a1c
    ...
    其中之一都能匹配
    \ 转义字符,使特殊字符的行为与普通字符一样,匹配本身 a\.c a.c

    1). 与除换行符外的任意字符都能匹配,因此被称为通配符

    2)正则表达式中可以使用转义字符转义特殊字符,然而要表示正则表达式中要求的单个反斜杠,书写模式时要写两个反斜杠(python\\.org)。因为python解释器遇到反斜杠也会执行转义。也就是说正则表达式中的转义包含两层转义:解释器的转义和正则表达式的转义。

    2.字符集 => 匹配单个字符
    字符集 说明 示例 匹配结果
    [] 自定义字符集。在其中添加字符,创建字符集,能够匹配其中包含的任一字符 [pc]ython python
    或cython
    \d 数字字符集:[0-9] a\dc a1c
    \D 非数字字符集:[^0-9] a\Dc abc
    \w 单词数字字符集:[A-Za-z0-9_] a\wc a_c
    \W 非单词数字字符集:[^A-Za-z0-9_] a\Wc a c
    \s 空白字符集:[<空格>\t\r\n\f\v] a\sc a c
    \S 非空白字符集:[^<空格>\t\r\n\f\v] a\Sc a2c

    字符集是一些字符的集合,正则匹配时能够匹配字符集中任意一个字符;

    []:称为自定义字符集;

    其他字符集称为预定义字符集

    3. 重复运算符 => 重复运算单个字符
    字符 说明 示例 匹配结果
    * 匹配前一个字符0次或无限次 abc* ab或abc或abccccccc...
    + 匹配前一个字符1次或无限次 abc+ abc或abcc或abccccccc...
    匹配前一个字符0次或一次 abc? ab或abc
    {m} 匹配前一个字符m次 abc{3} abccc

    {m, n}:表示匹配前一个字符m次到n次;

    {m,}:表示匹配前一个字符至少m次;

    {, n}:表示匹配前一个字符最多n次

    4. 特殊字符
    字符 说明 示例 匹配结果
    ^ 用在字符最前,匹配字符串的开头 ^a* 只能匹配以“a”开头的字符串
    $ 用在字符最后,匹配字符串的结尾 .*?c$ 匹配以“c”结尾的字符串

    “^”放在字符集([^...])前表示匹配指定字符集外的字符;

    5. 二选一和子模式

    1)二选一:管道字符,“|”

    字符 说明 示例
    | 管道字符。具有“或”的作用,匹配在其左右的任意一个字符串 ‘python|jave’

    2)子模式——分组匹配

    字符 说明 示例
    () 括号中的字符被正则表达式视为一个分组,也可以称为一个子模式 (ab)
    \num 引用子模式num匹配到的字符串;num为子模式的编号.
    (?P<name>) 为子模式设置别名name (?P<t1>ab)
    (?P=name) 引用名称为name的子模式匹配到的字符串

    管道符号:| 能够与“子模式”配合使用,’’p(ython|ear)‘’ => 匹配python或pear;

    子模式编号:整个正则表达式作为一个模式编号为“0”,其余子模式从左至右从 1 - 99 依次编号,最大编号为99;

    子模式与重复运算符共用:它们两者共用时,子模式被视为一个整体。(ab)? => 表示ab出现0次或1次;

    6. 贪婪模式与非贪婪模式
    字符 说明 示例
    字符集/通配符 + 重复运算符 贪婪模式,匹配尽可能多的内容,能匹配多少就匹配多少 r'\*(.+)*\*' =>
    能匹配 *ab*ab*
    字符集/通配符 + 重复运算符 + “?” 非贪婪模式,匹配较少的内容,一旦匹配成功即退出匹配 r'\*(.+)*?\*' =>
    只能匹配 *ab*

    重复运算符 默认是贪婪模式的;重复运算符 + ? 能够将重复运算符指定为非贪婪模式的。

    7. python标准正则表达式模块 re

    re 模块是python中标准的能够进行正则表达式运算的模块,其中有一些重要的函数:

    1)基本方法

    方法 说明 示例
    re.compile(pattern[, flags]) 对正则表达式进行编译构建匹配模式对象,能够避免多次重复编译,提升效率 pattern = re.compile(r’表达式’)

    直接使用re中的匹配方法,如 re.match(r’表达式’,‘string’) ,这样使用如果存在循环,将每次都对r’表达式’进行编译;不如先编译 pattern = re.compile(r’表达式’),pattern.match(‘string’) => 一次编译,多次使用。

    flags:能够设置编译时的模式,re.DOTALL == re.S == re.RegexFlag.DOTALL == re.RegexFlag.S的DOTALL模式,表示让 . 符号匹配任何字符包括换行符;re.IGNORECASE == re.I == re.RegexFlag.IGNORECASE == re.RegexFlag.I 表示匹配时忽略大小写;

    re.RegexFlag.IGNORECASE | re.DOTALL => 同时支持两种模式。

    2)四大检索方法

    方法 说明
    re.match() 从开头进行匹配,并且只匹配一次
    re.search() 全局进行匹配,并且只匹配一次
    re.findall() 匹配所有符号条件的数据,返回是 结果列表
    re.finditer() 也是在全局匹配,匹配所有,但是返回迭代对象,迭代 Match 对象,匹配一个,返回一个

    3)分组和替换方法

    a. 分组:通过给定字符串对数据进行分组,re.split()

    #!/usr/bin/python3
    # -*- coding: utf-8 -*-
    
    import re
    string = "a;dj jkl,jj; j;sd"
    # split 分组
    pattern = re.compile(r'[; ,]+')
    result = pattern.split(string)
    print(result)
    
    >>>
    ['a', 'dj', 'jkl', 'jj', 'j', 'sd']
    

    即使用正则表达式匹配到的字符分割字符串

    b. 替换:通过给定的正则表达式和替换字符进行替换,re.sub()

    import re
    
    # sub 交换
    string = "hello world"
    # 带 空格的词组替换成 #
    pattern = re.compile(r'(\w+) (\w+)')
    
    # 把 空格的词组 进行交换
    result = pattern.sub(r"\2 \1",string)
    
    print(result)
    
    >>>
    world hello
    

    先匹配string,然后通过re.sub中指定的模式进行替换

    8. 提取匹配结果

    re.match和re.search匹配后得到的是 RE_Match 对象(re.findall得到匹配后的列表,re.finditer得到迭代器)

    得到RE_Match对象后,可以使用 obj.group() 可以得到具体的匹配结果。

    obj.group()默认获取 编号为0 的模式 即整个正则表达式匹配的结果,可以指定子模式编号以获取哪个子模式匹配的结果。

    相关文章

      网友评论

          本文标题:正则表达式

          本文链接:https://www.haomeiwen.com/subject/dplxectx.html