本文适合对正则有一定使用经验的人阅读。
想认真把正则学习透彻,必须对元字符有深刻的认识。正则表达式包含原义(正常)文本字符和元字符。
如何匹配“不包含某组字符串”
不包含某些单个字符大家一定很简单 :
不包含任意abc字符的某个字符串
[^abc]*
那,以 <form 开头中间不包含 name="username" 且以 /form> 结尾的字符串应该如何表达?
正确的正则表达式为:
<form(?:(?!<form).)*name="username"(?:(?!/form>).)*/form>
或者<form((?!<form).)*name="username"(?:(?!/form>).)*/form>
要写出上面表达式,就必须认真理解一下元字符。
什么是元字符
元字符特制正则表达式中具有特殊意义的专用字符或字符串,主要包含:
非打印字符: \cx \f \n \r \s \S \t \v
特殊字符: $ () * + . [ ? \ ^ { |
限定符: * + ? {n} {n,} {n,m}
定位符:^ $ \b \B
选择: () (?:) (?=) (?!)
反向引用: \1-99 对选择到的并缓存的匹配进行引用
重点元字符列表
重点介绍 ?= ?! ?<= ?<!
1.这四个元字符首先都是非捕获型,可以理解为匹配而定位(或者叫选择吧)
2.既然是为匹配而定位,则这几个很少单独使用,一般与其他pattern配合使用
3.?= ?! 为正向 ?<= ?<! 为反向
(pattern) :匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,可以使用\1-99来反向引用。
(?:pattern):匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。
(?=pattern):正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配。例如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?!pattern):正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配。例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?<=pattern):反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。例如,"(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows",但不能匹配"3.1Windows"中的"Windows"。
(?<!pattern):反向否定预查,与正向否定预查类似,只是方向相反。例如"(?!95|98|NT|2000)Windows"能匹配"3.1Windows"中的"Windows",但不能匹配"2000Windows"中的"Windows"。
网友评论