美文网首页
正则表达式

正则表达式

作者: 守拙圆 | 来源:发表于2017-09-09 13:32 被阅读26次

    定义

    正则表达式(简称 regex): 是一些字符和特殊符号组成的字符串,它描述了模式的重复或者表述多个字符,于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。

    名词解释

    搜索: 即在字符串任意部分中搜索匹配模式的子字符串。(搜索的落脚点在字符串)
    匹配: 是指判断一个字符串能否从起始处全部或者部分地匹配某个模式。(匹配的落脚点在模式)

    特殊符号和字符

    表示法/符号 描述 正则表达式示例
    literal 匹配文本字符串的字面值 literal foo
    re1|re2 匹配正则表达式 1 或2 foo|bar
    . 匹配任何字符(除\n之外) b.b
    ^ 匹配字符串的起始部分 ^Dear
    $ 匹配字符串的终止部分 /bin/sh$ (此处的表示匹配/ 0次或者多次)
    * 匹配0次或者多次前面出现的正则表达式 [A-Zq-z0-9]*
    + 匹配1次或者多次出现在前面的正则表达式 [a-z]+.com
    ? 匹配0次或者1次前面出现的正则表达式 goo?
    {N} 匹配N次前面出现的正则表达式 [0-9]{3}
    {N, M} 匹配N到M次前面出现的正则表达式 [0-9]{3, 5}
    [...] 匹配来自字符集的任一字符 [aeiou]
    [x-y] 匹配x~y之间的任一字符 [0-9], [A-Za-z]
    [^...] 不匹配此字符集中出现的任何一个字符,包括某一范围的字符 [^aeiou], [^A-Za-z0-9]
    (*|+|?|{})? 上面用于匹配字符多次出现的符号(*、+、?、{})等后面紧跟?操作符,则表示使用该符号的非贪婪版本 .?[a-z] (其中 .? 表示不匹配任何字符0次)
    (...) 匹配封闭的正则表达式,然后另存为子组 ([0-9]{3})?
    /d 匹配任何十进制数字,与[0-9]一致,不匹配任何非数值型的数字 data\d+.txt
    \w 匹配任何字母数字字符,与[A-Za-z0-9]相同的字符,(\W与之相反) [A-Za-z_]\w+
    \s 匹配任何空格字符,与[\n\t\r\v\f]相同,(\S与子相反) of\sthe
    \b 匹配任何单词边界(\B与之相反) \bThe\b
    \N 匹配已保存的子组N price:\16
    \c 逐字匹配任何特殊字符c(即仅按照字面意义匹配,不匹配特殊含义) .,\,*
    \A(\Z) 匹配字符串的起始(结束) \ADear

    闭包操作符

    定义: 特殊符号 *, + 和 ?, 所有这些可以匹配一个,多个或者没有出现的字符串模式, 称之为闭包.
    贪婪匹配: 正则表达式引擎将试图尽可能多地 "吸收" 匹配该模式的字符.
    非贪婪匹配: 闭包匹配在一般情况下都是贪婪匹配, 若闭包后紧跟 ?, 则表示要求正则表达式引擎匹配尽可能少的次数.

    分组

    分组用如下示例即可说清楚

    import re
    m = re.match("(1+?)([0-2]*)", "111234")
    print m.group()
    print m.group(1)
    print m.group(2)
    >>>1112
    >>>1
    >>>112
    

    此文说明了正则表达式的基本语法规则, 平时使用中基本够用, 用到更深入知识查阅相关资料即可.


    版权声明:自由转载-非商用-非衍生-保持署名创意共享3.0许可证

    相关文章

      网友评论

          本文标题:正则表达式

          本文链接:https://www.haomeiwen.com/subject/hagnjxtx.html