美文网首页收藏ios
iOS正则表达式和NSRegularExpression

iOS正则表达式和NSRegularExpression

作者: coder_zhengyi | 来源:发表于2017-11-08 15:18 被阅读82次

    这篇文章其实是在学习正则表达式时网上一些资料的整合,所以只能算是一个总结性文章,不是自己原创,感谢各位的分享。参考文章和网站在文章结尾。

    1.概念

    正则表达式:描述符合某些规则字符串的工具。
    正则表达式经常用于匹配符合规则的字符串,然后对符合规则的字符串进行处理。

    在iOS中常用的场景包括:输入框内输入内容的限制,特定文本的判定(比如手机号、邮箱、密码等),对文本内特定字符进行搜索,进行富文本化或替换等。

    2.基本规则

    正则表达式基本上由一些特定的字符和表达式构成,所以理解这些字符或表达式是学习的基础。

    元字符:

    表1.常用元字符
    代码 说明
    . 匹配出换行符意外的任意字符
    \w 匹配字母或数字或下划线或汉字
    \s 匹配任意的空白符
    \d 匹配数字
    \b 匹配单词的开始或结束(不匹配标点符号或者换行符,只匹配一个位置)
    ^ 匹配字符串的开始
    $ 匹配字符串的结束

    字符转义:
    如果想使用元字符本身的话,需要用转义字符,即\*表示*字符。

    反义:
    有时候需要查找不属于某个简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义。

    表2.常用反义符号
    代码/语法 说明
    \W 匹配任意不是字母、数字、下划线、汉字的字符
    \S 匹配任意不是空白符的字符
    \D 匹配任意非数字的字符
    \B 匹配不是单词开头或结束的位置
    [^x] 匹配除了x以外的任意字符
    [^aeiou] 匹配除了aeiou这几个字母以外的任意字符

    重复:

    表3.常用的限定符
    代码/语法 说明
    * 重复零次或者更多次
    + 重复一次或者更多次
    ? 重复零次或一次
    {n} 重复n次
    {n,} 重复n次或更多次
    {n,m} 重复n到m次

    范围:
    自定义匹配集合使用[]。比如数字范围[0-9]。

    分支条件:
    如果有几种规则,满足其中任意一种都应当匹配。不同的规则用 | 隔开,这就是分支条件。
    匹配分支条件时,会从左到右的测试每个条件,如果满足了某个分支的话,就不会再管其他条件。

    分组:
    可以用()小括号来指定子表达式(即分组)。可以对分组进行重复。

    正则表达式常用分组.png

    捕获:
    默认情况下每个分组会自动拥有一个组号,从左到右,从1开始。可以用\1代表分组1匹配的文本。
    可以使用(?<name>exp)来指定组名,并用\k<name>来捕获。

    零宽断言
    零宽断言是指定满足一定条件(即断言)的位置。
    负向零宽断言:如果我们只是想要确保某个字符没有出现,但并不想去匹配它时就可以使用负向领宽断言,因为它只匹配一个位置,并不消费任何字符。

    注释
    要包含注释的话最好启用“忽略模式里的空白符”选项。这样在#后面到这一行结束的所有文本都将被当成注释忽略掉。
    比如:

      (?<=    # 断言要匹配的文本的前缀
      <(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
      )       # 前缀结束
      .*      # 匹配任意文本
      (?=     # 断言要匹配的文本的后缀
      <\/\1>  # 查找尖括号括起来的内容:前面是一个"/",后面是先前捕获的标签
      )       # 后缀结束
    

    贪婪与懒惰
    当正则表达式中包含能接受重复的限定服时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。这被称为贪婪匹配。
    懒惰匹配与此相反,在能使整个匹配成功的前提下匹配尽可能少的字符。

    表5.懒惰限定符
    代码/语法 说明
    *? 重复任意次,但尽可能少重复
    +? 重复一次或更多次,但尽可能少重复
    ?? 重复0次或1次,但尽可能少重复
    {n,m}? 重复n到m次,但尽可能少重复
    {n,}? 重复n次以上,但尽可能少重复

    处理选项
    一般会有正则表达式的处理选项,比如:忽略大小、忽略空白、显示捕获等,根据开发环境的不同会有不同选项,注意选择使用。

    平衡组/递归匹配

    • (?'group')把捕获的内容命名为group,并压入堆栈(Stack)
    • (?'-group')从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本次匹配失败
    • (?(group)yes|no)如果对战上存在以名为group的内容的话,继续匹配yes内容,否则匹配no内容
    • (?!)零宽负向先行断言,由于没有后缀表达式,视图匹配总是失败

    平衡组常见的应用是匹配HTML。

    例子:匹配<>成对出现的字符串。

    <                         #最外层的左括号
        [^<>]*                #最外层的左括号后面的不是括号的内容
        (
            (
                (?'Open'<)    #碰到了左括号,在黑板上写一个"Open"
                [^<>]*       #匹配左括号后面的不是括号的内容
            )+
            (
                (?'-Open'>)   #碰到了右括号,擦掉一个"Open"
                [^<>]*        #匹配右括号后面不是括号的内容
            )+
        )*
        (?(Open)(?!))         #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的"Open";如果还有,则匹配失败
    >                         #最外层的右括号
    

    3.常用正则表达式

    说明 正则表达式
    手机号 ^((13[0-9])|(15[012356789])|(17[0,0-9])|(18[0,0-9]))\d{8}$
    邮箱 ^([a-z0-9_.-]+)@([\da-z.-]+).([a-z.]{2,6})$
    身份证 [1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|([1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$
    短信验证码 \d{6}
    中文字符 [\u4e00-\u9fa5]
    用户名 ^[a-z0-9_-]{3,16}$
    密码 ^[a-z0-9_-]{6,18}$
    QQ号 [1-9][0-9]{4,}
    国内电话 \d{3}-\d{8} \d{4}-\d{7}
    URL ^(https?://)?([\da-z.-]+).([a-z.]{2,6})([/\w .-]*)*/?$
    IP ^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$

    可以点击下面网址查看更多正则表达式常用正则表达式,使用之前自己最好再验证一下,有一些也不一定准确。

    4.正则表达式在iOS中的应用

    iOS中正则表达式有三种使用方式

    1). 利用NSPredicate(谓词)匹配

    例如邮箱匹配 :

       NSString *email = @"niji_saki@163.com";
       NSString *regex = @"^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$";
       NSPredicate *predicate = [NSPredicate predicateWithFormat:@"SELF MATCH %@", regex];
       BOOL isValid = [predicate evaluateWithObject:email];
    

    2). 利用rangeOfString:option:直接查找

        NSString *searchText = @"// Do any additional setup after loading the view, typically from a nib.";
        NSRange range = [searchText rangeOfString:@"(?:[^,])*\\." options:NSRegularExpressionSearch];
        if (range.location != NSNotFound) {
            NSLog(@"%@", [searchText  substringWithRange:range]);
        }
    

    3).使用正则表达式类

        NSString *searchText = @"// Do any additional   setup after loading the view, typically from a nib.";   
        NSError *error = NULL;
        NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:@"(?:[^,])*\\." options:NSRegularExpressionCaseInsensitive error:&error];
        NSTextCheckingResult *result = [regex firstMatchInString:searchText options:0 range:NSMakeRange(0, [searchText length])];
        if (result) {
            NSLog(@"%@\n", [searchText substringWithRange:result.range]);
        } 
    

    第一种需要学习NSPredicate的写法,第二种之关心匹配结果,第三种效率最高。

    5. NSRegularExpression详解

    NSRegularExpression是一个用于匹配Unicode字符串的正则表达式类,该类不可变(immutable)。

    NSRegularExoression的基本方法是在目标字符串符合正则表达式是调用一个block,这个block中含有匹配结果信息。此外还有其他一些方法在匹配后返回诸如数组、匹配数量、匹配范围、第一次匹配等结果。还有用来匹配后替换字符串的方法。

    匹配结果放在NSTextCheckingResult类中,该类中包含匹配的范围、数量、结果类型等变量(iOS11 中新增了rangWithName的方法),同时也提供一些特定的匹配方法,比如针对手机号、日期、地址等的匹配。

    NSRegularExpression支持的正则表达式标准在该网站.

    具体接口,参见苹果官方的API。需要注意的是:

    • 当没有匹配到内容时,返回的range值为{NSNotFound,0}。
    • 当匹配到的内容有多个时,NSTextCheckingResult的range返回匹配内容范围,range:at:返回匹配内容中的每一个字符的匹配范围。
    • 匹配方法enumerateMatches(in:options:range:using:) 会根据options来确定block调用方式,在block中可以设置bool来决定是否停用匹配。
    • stringByReplacingMatchesInString:options:range:withTemplate:方法,template参数使用$0可以代表匹配的全部字符,使用$1代表第一个字符,依次类推。
    • NSRegularExpression是不可变和线程安全的,因此一个实例可以用在多个线程中进行匹配操作,然而被匹配的字符串在匹配过程是应该是不可变的。

    6. iOS正则表达式开源库


    [1].30分钟了解正则表达式

    [2].iOS中正则表达式的三种使用方式

    [3].iOS开发之详解正则表达式

    相关文章

      网友评论

      本文标题:iOS正则表达式和NSRegularExpression

      本文链接:https://www.haomeiwen.com/subject/rdqymxtx.html