美文网首页
元字符-正则表达式的灵魂

元字符-正则表达式的灵魂

作者: 刘恒阳 | 来源:发表于2018-05-20 15:25 被阅读17次

    本文适合对正则有一定使用经验的人阅读。

    想认真把正则学习透彻,必须对元字符有深刻的认识。正则表达式包含原义(正常)文本字符元字符

    如何匹配“不包含某组字符串”

    不包含某些单个字符大家一定很简单 :

    不包含任意abc字符的某个字符串
    [^abc]*

    那,以 <form 开头中间不包含 name="username" 且以 /form> 结尾的字符串应该如何表达?

    正确的正则表达式为:
    <form(?:(?!<form).)*name="username"(?:(?!/form>).)*/form>
    或者<form((?!<form).)*name="username"(?:(?!/form>).)*/form>

    要写出上面表达式,就必须认真理解一下元字符

    什么是元字符

    元字符特制正则表达式中具有特殊意义的专用字符或字符串,主要包含:

    非打印字符: \cx \f \n \r \s \S \t \v
    特殊字符: $ () * + . [ ? \ ^ { |
    限定符: * + ? {n} {n,} {n,m}
    定位符:^ $ \b \B
    选择: () (?:) (?=) (?!)
    反向引用: \1-99   对选择到的并缓存的匹配进行引用

    重点元字符列表

    重点介绍   ?=    ?!     ?<=     ?<!

    1.这四个元字符首先都是非捕获型,可以理解为匹配而定位(或者叫选择吧)
    2.既然是为匹配而定位,则这几个很少单独使用,一般与其他pattern配合使用
    3.?= ?!   为正向  ?<= ?<! 为反向

    (pattern) :匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,可以使用\1-99来反向引用。

    (?:pattern):匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。

    (?=pattern):正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配。例如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

    (?!pattern):正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配。例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

    (?<=pattern):反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。例如,"(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows",但不能匹配"3.1Windows"中的"Windows"。

    (?<!pattern):反向否定预查,与正向否定预查类似,只是方向相反。例如"(?!95|98|NT|2000)Windows"能匹配"3.1Windows"中的"Windows",但不能匹配"2000Windows"中的"Windows"。

    相关文章

      网友评论

          本文标题:元字符-正则表达式的灵魂

          本文链接:https://www.haomeiwen.com/subject/kzqtjftx.html