re模块

作者: 低吟浅唱1990 | 来源:发表于2017-06-22 00:22 被阅读57次

    re模块实现了丰富的正则表达式句法。

    re.match(pattern, string, flags=0)

    从源字符串的开始位置匹配一个模式

    >>>text1 = 'Hello spam...World'
    >>>text2 = 'Hello spam...other'
    >>>matchobj = re.match('Hello(.\*)World',text1)
    >>>print(matchobj)
    >>><_sre.SRE_Match object; span=(0, 18), match='Hello spam...World'>
    
    >>>matchobj = re.match('Hello(.\*)World',text2)
    >>>print(matchobj)
    >>>None   #无匹配返回None
    Hello(.*)World--->Hello和World匹配其自身,(.*)匹配任何字符(.)重复0次到多次(*)
    

    re.compile(pattern, flags=0)

    编译一个模式对象,能够调用regex.match(string[, pos[, endpos]])和regex.match(string[, pos[, endpos]])

    pattobj = re.compile('Hello(.\*)World')
    matchobj = pattobj.match(text1)
    print(matchobj.group(1))
    >>> spam...   #匹配到的子字符串
    >>>print(matchobj.group(0))   #匹配到的原始字符串
    >>>Hello spam...World
    

    字符串操作与模式

    result = 'abc--bbb--ccc'
    print(result.split('--'))
    print(result.replace('--','..'))
    >>>['abc', 'bbb', 'ccc']
    >>>abc..bbb..ccc
    字符串操作不能完成更加复杂的操作
    >>>result = 'abc--bbb==ccc'
    >>>print(result.split(['--','=='])) #出错
    

    re.split(pattern, string, maxsplit=0, flags=0) 用pattern来分割string

    result = 'abc--bbb--ccc'
    print(re.split('--',result))
    >>>['abc', 'bbb', 'ccc']
    如果是result = 'abc--bbb==ccc'情况下要分割出字母
    >>>print(re.split('--|==',result)) #在--或==的两侧分割
    >>>['abc', 'bbb', 'ccc']
    >>>print(re.split('(?:--)|(?:==)',result))   (?:R)表示分割开R而不代表保留下的组合
    >>>['abc', 'bbb', 'ccc']
    

    re.sub(pattern, repl, string, count=0, flags=0) 用repl替换string中被模式匹配的部分

    >>>result = 'abc--bbb--ccc'
    >>>print(re.sub('--','...',result))
    >>>abc...bbb...ccc
    >>>result = 'abc--bbb==ccc'
    >>>print(re.sub('--|==','...',result))
    >>>abc...bbb...ccc
    

    re.findall(pattern, string, flags=0)

    >>>result = re.findall('<(.*?)>','<spam>/<ham>/<eggs>') #找到所有匹配的组合
    >>>print(result)
    >>>['spam', 'ham', 'eggs']
    
    >>>result = re.findall('<(.*?)>.*<(.*?)>','<spam> \n <ham>\n<eggs>') #在\n处停止
    >>>print(result)
    >>>[]
    (?s)能够改变"."的匹配规则 如果开头有(?s)强制将“.”匹配到多行文本的结尾符
    >>>result = re.findall('(?s)<(.\*?)>.\*<(.\*?)>','<spam> \n <ham>\n<eggs>')
    >>>print(result)
    >>>[('spam', 'eggs')]
    

    re.search(pattern, string, flags=0) 扫描整个string找到第一个匹配的地址,并且返回一个match对象

    >>>result = re.search('(?P<part1>\w*)/(?P<part2>\w*)','...aaa/bbb/ccc')  #(?P<part1>\w*)匹配()里面的任何正则表达式,并将一个命名过的组合分隔开
    >>>print(result.groups())
    >>>('aaa', 'bbb')
    >>>print(result.groupdict())
    >>>{'part1': 'aaa', 'part2': 'bbb'}
    >>>print(result.group('part1'))
    >>>aaa
    

    R代表正则表达式,C代表字符 N表示数字

    操作符 意义
    . 匹配任何字符串(包括换行符,如果模式开头包含(?s))
    ^ 匹配字符串的开头
    $ 匹配字符串的结尾
    C 任何非特殊字符与本身相匹配
    R* 有0到多个正则表达式
    R? 有0或1个正则表达式
    R{m} 匹配m个R:例如a{5} 匹配'aaaaa'
    R{m,n} 匹配m到n个R
    R*?,R+? 和*、+和?一样不过匹配尽可能少的字符/重复次数
    R??,R{m,n}? 作符 匹配和消耗尽可能少的字符
    [...] 定义字符集:[a-zA-Z]匹配所有字母
    [ ^...] 定义互补字符集:匹配集合之外的字符
    | 转义字符
    \ 匹配\本身
    RR 连接:匹配两个R
    (R) 匹配()里的任何正则表达式R,并且将组合分隔开 保留匹配字符串
    (?:R) 和(R)一样 但不保留组合
    (?=R) 前向断言:如果R匹配下一部分则成功匹配,但不消耗字符串任何部分
    (?!R) 与上相反
    (?P<name>R) 匹配()里的任何表达式,并将一个命名过的组合分割开
    (?P=name) 匹配与前配命名为name的组相匹配的文本
    (?letter) 设置工作模式标识符
    (?<=R) 后向断言:如果R匹配紧邻着的字符串当前的位置的上一部分则成功匹配
    (?<!R) 与上相反

    相关文章

      网友评论

          本文标题:re模块

          本文链接:https://www.haomeiwen.com/subject/vuatcxtx.html