iOS中正则表达式的基本使用方法

作者: 贪吃的猫cx | 来源:发表于2017-07-11 15:40 被阅读0次

    一.第三方框架RegexKitLite的使用

    在ios项目中可以借用第三方框架RegexKitLite来简化对正则表达式的使用,使用方法如下

    1.去RegexKitLite下载类库,解压出来会有一个例子包及2个文件,将那两个文件添加到工程中,并导入到项目中。 下载地址:

    http://www.cocoachina.com/bbs/job.php?action-download-pid-135286-tid-18111-aid-11143.html - Lv

    2.工程中添加libicucore.dylib frameworks。

    匹配img标签里面的src的正则表达式:src\\s*=\\s*\"?(.*?)(\"|>|\\s+)

    下面就是使用介绍(可拷贝到Xcode中观看会很方便)

    - (void)howToUseRegexKitLite

    {

    NSString *searchString = @"我正在#话题#吃饭@zhangsan 你@lisi 吃了没?";

    NSString *regexString = @"@\\w+";

    // 返回所有匹配成功的结果,并存放到一个数组里

    NSArray *array = [searchString componentsMatchedByRegex:regexString];

    NSLog(@"array:%@",array); // 输出结果: ("@zhangsan","@lisi")

    // 透过传入一个Regex进行字符串的比对,并且会将第一组比对出来的结果以NSArray回传群组

    NSArray *array1 = [searchString captureComponentsMatchedByRegex:regexString];

    NSLog(@"array1:%@",array1); // 输出结果: ("@zhangsan")

    // 同上者,一样会回传Regex所比对出来的字符串群组,但会回传全部的配对组合

    NSArray *array2 = [searchString arrayOfCaptureComponentsMatchedByRegex:regexString];

    NSLog(@"array2:%@",array2); // 输出结果: (("@zhangsan"),("@lisi"))

    // 判断字符串是否与Regex配对

    BOOL isMatched = [@"@zhangsan" isMatchedByRegex:regexString];

    if (isMatched) {

    NSLog(@"配对成功");

    }

    // 取得配对出来的第一個完整字串

    NSString *matchedString1 = [searchString stringByMatching:regexString];

    NSLog(@"matchedString1:%@",matchedString1); // 输出结果: @zhangsan

    // 将字符串中与Regex配对的结果进行替换

    NSString *replaceString = @"wangwu";

    NSString *matchedString2 = [searchString stringByReplacingOccurrencesOfRegex:regexString withString:replaceString];

    NSLog(@"matchedString2:%@",matchedString2); // 输出结果: 我正在#话题#吃饭wangwu 你wangwu 吃了没?

    // 如果是NSMutableString,则可以直接替换,并返回替换的次数

    NSMutableString *mutSearchString = [NSMutableString stringWithString:@"我正在#话题#吃放@zhangsan 你@lisi 吃了没?"];

    NSInteger mutMatchedString2 = [mutSearchString replaceOccurrencesOfRegex:regexString withString:replaceString];

    NSLog(@"mutMatchedString2:%ld",mutMatchedString2); // 输出结果: 2

    // 返回一个拆分后的字符串数组

    NSArray *array3 = [searchString componentsSeparatedByRegex:regexString];

    NSLog(@"array3:%@",array3); // 输出结果: ("我正在#话题#吃饭"," 你"," 吃了没?")

    }

    #pragma mark RegexKitLite的使用总结

    /*

    RegexKitLite提供的方法都是透过NSString来操作,常用的方法:

    1. - (NSArray *)RKL_METHOD_PREPEND(componentsMatchedByRegex):(NSString *)regex

    返回所有匹配成功的结果,并存放到一个数组里

    2. - (NSArray *)captureComponentsMatchedByRegex:(NSString *)regex;

    这个方法是透过传入一个Regex进行字串的比对,并且会将第一组比对出来的结果以NSArray回传群组。

    3. - (NSArray *)arrayOfCaptureComponentsMatchedByRegex:(NSString *)regex;

    這個方法如同上者,一样会回传Regex所比对出来的字串群组,但会回传全部的配对组合。

    4. - (BOOL)isMatchedByRegex:(NSString *)regex;

    判断字串是否与Regex配对,在进行资料验证的時候很实用。

    5. - (NSString *)stringByMatching:(NSString *)regex;

    这方法则是会回传配对出来的第一個完整字串。

    6. - (NSString *)stringByReplacingOccurrencesOfRegex:(NSString *)regex withString:(NSString *)replacement;

    将字串中与Regex配对的结果进行替换。

    7. - (NSInteger)replaceOccurrencesOfRegex:(NSString *)regex withString:(NSString *)replacement

    如果是NSMutableString,则可以直接替换,并返回替换的次数

    8. - (NSArray *)componentsSeparatedByRegex:(NSString *)regex

    用于拆分,返回一个拆分后的字符串数组

    */

    二.正则表达式的使用

    - (void)howToUseRegex

    {

    #pragma mark 1.正则表达式规则

    /*-------------------------------1.1普通字符-------------------------------*/

    // 字母、数字、汉字、下划线、非特殊定义的标点符号,都是"普通字符"。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。

    NSString *searchString1_1 = @"abcde";

    NSString *regexString1_1 = @"c";

    NSString *matchedString1_1 = [searchString1_1 stringByMatching:regexString1_1];

    NSLog(@"matchedString1_1:%@",matchedString1_1); // 输出结果: c

    /*-------------------------------1.2简单的转义字符-------------------------------*/

    // 一些不便书写的字符,在前面加 "\",如:\n,\t,\\ 等

    NSString *searchString1_2 = @"abc$de";

    // 记住在字符串中“\”需要用“\\”表示

    NSString *regexString1_2 = @"\\$d";

    NSString *matchedString1_2 = [searchString1_2 stringByMatching:regexString1_2];

    NSLog(@"matchedString1_2:%@",matchedString1_2); // 输出结果: $d

    /*------------------------1.3能够与 '多种字符' 匹配的表达式-------------------------*/

    /*

    .     : 匹配除换行符以外的任意字符

    \w    : 匹配字母或数字或下划线或汉字

    \s    : 匹配任意的空白符

    \d    : 匹配数字

    \b    : 匹配单词的开始或结束

    */

    NSString *searchString1_3 = @"abc123";

    // 正则表达式有一条规则:最先开始的匹配拥有最高的优先权

    NSString *regexString1_3 = @"\\d\\d";

    NSString *matchedString1_3 = [searchString1_3 stringByMatching:regexString1_3];

    NSLog(@"matchedString1_3:%@",matchedString1_3); // 输出结果: 12

    /*---------------------1.4自定义能够匹配 '多种字符' 的表达式-------------------------*/

    // 使用方括号 [ ] 包含一系列字符,能够匹配其中任意一个字符。用

    [^ ]

    包含一系列字符,则能够匹配其中字符之外的任意一个字符。同样的道理,虽然可以匹配其中任意一个,但是只能是一个,不是多个。[]本身就隐含了“或”的关系,在[]中使用“|”表示“或”的关系是不对的,这样做只是多了一个普通字符“|”,用来匹配“|”字符本身,()也是同样道理。

    如:

    /*

    [ab5@]    : 匹配 "a" 或 "b" 或 "5" 或 "@"

    [^abc]    : 匹配 "a","b","c" 之外的任意一个字符

    [f-k]     : 匹配 "f"~"k" 之间的任意一个字母

    [^A-F0-3] : 匹配 "A"~"F","0"~"3" 之外的任意一个字符

    */

    NSString *searchString1_4 = @"abc123";

    NSString *regexString1_4 = @"[bcd][bcd]";

    NSString *matchedString1_4 = [searchString1_4 stringByMatching:regexString1_4];

    NSLog(@"matchedString1_4:%@",matchedString1_4); // 输出结果: bc

    /*---------------------1.5修饰匹配次数的特殊符号------------------------------*/

    // 使用表达式再加上修饰匹配次数的特殊符号,那么不用重复书写表达式就可以重复匹配

    /*

    {n}   :  表达式重复n次

    {m,n} :  表达式至少重复m次,最多重复n次

    {m,}  :  表达式至少重复m次

    ?     :  匹配表达式0次或者1次,相当于 {0,1}

    +     :  表达式至少出现1次,相当于 {1,}

    *     :  表达式不出现或出现任意次,相当于 {0,}

    */

    NSString *searchString1_5 = @"It costs $12.5";

    NSString *regexString1_5 = @"\\d+\\.?\\d";

    NSString *matchedString1_5 = [searchString1_5 stringByMatching:regexString1_5];

    NSLog(@"matchedString1_5:%@",matchedString1_5); // 输出结果: 12.5

    /*---------------------1.6其他一些代表抽象意义的特殊符号--------------------------*/

    // 一些符号在表达式中代表抽象的特殊意义

    /*

    ^     : 与字符串开始的地方匹配,不匹配任何字符

    $     : 与字符串结束的地方匹配,不匹配任何字符

    \b    : 匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符

    */

    // 进一步说明:"\b" 与 "^" 和 "$" 类似,本身不匹配任何字符,但是它要求它在匹配结果中所处位置的左右两边,其中一边是 "\w" 范围,另一边是 非"\w" 的范围

    NSString *searchString1_6 = @"@@@abc";

    NSString *regexString1_6 = @".\\b.";

    NSString *matchedString1_6 = [searchString1_6 stringByMatching:regexString1_6];

    NSLog(@"matchedString1_6:%@",matchedString1_6); // 输出结果: @a

    #pragma mark 2.正则表达式中的一些高级规则

    /*---------------------2.1匹配次数中的贪婪与非贪婪--------------------------*/

    // 1)在使用修饰匹配次数的特殊符号"{m,n}", "{m,}", "?", "*", "+"可以使同一个表达式能够匹配不同的次数,这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。如:

    NSString *searchString2_1_1 = @"dxxxdxxxd";

    NSString *regexString2_1_1 = @"(d)(\\w+)(d)";

    NSString *matchedString2_1_1 = [searchString2_1_1 stringByMatching:regexString2_1_1];

    NSLog(@"matchedString2_1_1:%@",matchedString2_1_1); // 输出结果: dxxxdxxxd

    // 2)在修饰匹配次数的特殊符号后再加上一个 "?" 号,则可以使匹配次数不定的表达式尽可能少的匹配,这种匹配原则叫作 "非贪婪" 模式,也叫作 "勉强" 模式

    NSString *regexString2_1_2 = @"(d)(\\w+?)(d)";

    NSString *matchedString2_1_2 = [searchString2_1_1 stringByMatching:regexString2_1_2];

    NSLog(@"matchedString2_1_2:%@",matchedString2_1_2); // 输出结果: dxxxd

    /*---------------------2.2反向引用--------------------------------------*/

    //

    使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推

    NSString *searchString2_2 = @"go go";

    NSString *regexString2_2 = @"\\b(\\w+)\\b\\s+\\1\\b";

    NSString *matchedString2_2 = [searchString2_2 stringByMatching:regexString2_2];

    NSLog(@"matchedString2_2:%@",matchedString2_2); // 输出结果: go go

    /*----------------2.3零宽断言-------------------------------------------*/

    // 零宽断言用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言

    /*

    1)捕获

    (exp)         : 匹配exp,并捕获文本到自动命名的组里

    (?exp)  : 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)

    (?:exp)       : 匹配exp,不捕获匹配的文本,也不给此分组分配组号零宽断言,可节约性能,提高效率

    2)零宽断言

    (?=exp)       : 匹配exp前面的位置

    (?<=exp)      : 匹配exp后面的位置

    (?!exp)       : 匹配后面跟的不是exp的位置

    (?

    */

    NSString *searchString2_3 = @"I'm singing while you're dancing.";

    NSString *regexString2_3 = @"\\b\\w+(?=ing\\b)";

    NSArray *matchedString2_3 = [searchString2_3 componentsMatchedByRegex:regexString2_3];

    NSLog(@"matchedString2_3:%@",matchedString2_3); // 输出结果: (sing,danc)

    // 3.其他通用规则

    /*----------------3.1------------------------------------------*/

    // 表达式中,可以使用 "\xXX" 和 "\uXXXX" 表示一个字符("X" 表示一个十六进制数)

    /*

    \xXX    : 编号在 0 ~ 255 范围的字符,比如:空格可以使用 "\x20" 表示

    \uXXXX  : 任何字符可以使用 "\u" 再加上其编号的4位十六进制数表示,比如:"\u4E2D"

    */

    /*----------------3.2------------------------------------------*/

    // 在表达式 "\s","\d","\w","\b" 表示特殊意义的同时,对应的大写字母表示相反的意义

    /*

    \S     : 匹配所有非空白字符("\s" 可匹配各个空白字符)

    \D     : 匹配所有的非数字字符

    \W     : 匹配所有的字母、数字、下划线以外的字符

    \B     : 匹配非单词边界,即左右两边都是 "\w" 范围或者左右两边都不是 "\w" 范围时的字符缝隙

    */

    /*----------------3.3------------------------------------------*/

    // 在表达式中有特殊意义,需要添加 "\" 才能匹配该字符本身的字符汇总

    /*

    ^     : 匹配输入字符串的开始位置。要匹配 "^" 字符本身,请使用 "\^"

    $     : 匹配输入字符串的结尾位置。要匹配 "$" 字符本身,请使用 "\$"

    ( )   : 标记一个子表达式的开始和结束位置。要匹配小括号,请使用 "\(" 和 "\)"

    [ ]   : 用来自定义能够匹配 '多种字符' 的表达式。要匹配中括号,请使用 "\[" 和 "\]"

    { }   : 修饰匹配次数的符号。要匹配大括号,请使用 "\{" 和 "\}"

    .     : 匹配除了换行符(\n)以外的任意一个字符。要匹配小数点本身,请使用 "\."

    ?     : 修饰匹配次数为 0 次或 1 次。要匹配 "?" 字符本身,请使用 "\?"

    +     : 修饰匹配次数为至少 1 次。要匹配 "+" 字符本身,请使用 "\+"

    *     : 修饰匹配次数为 0 次或任意次。要匹配 "*" 字符本身,请使用 "\*"

    |     : 左右两边表达式之间 "或" 关系。匹配 "|" 本身,请使用 "\|"

    "     : 用在不带@的字符串中时,用\"来进行转义,用在带@的字符串中时,用""来进行转义

    注意:大部分在正则中有特殊意义、在匹配其本身时需转义的字符,在[]内是不需要转义的。必须转义的只有“\”、“[”和“]”,而“^”出现在[]开始位置,“-”前后构成范围区间时,需要转义,出现在其它位置不需要转义,如:[\^

    .$^{\[(|)*+?\\-]

    */

    }

    附录 一 : 常用正则表达式

    一、校验数字的表达式

    1 数字:^[0-9]*$

    2 n位的数字:^\d{n}$

    3 至少n位的数字:^\d{n,}$

    4 m-n位的数字:^\d{m,n}$

    5 零和非零开头的数字:^(0|[1-9][0-9]*)$

    6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$

    7 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$

    8 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$

    9 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$

    10 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$

    11 非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

    12 非零的负整数:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

    13 非负整数:^\d+$ 或 ^[1-9]\d*|0$

    14 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

    15 非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

    16 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

    17 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

    18 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

    19 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

    二、校验字符的表达式

    1 汉字:^[\u4e00-\u9fa5]{0,}$

    2 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

    3 长度为3-20的所有字符:^.{3,20}$

    4 由26个英文字母组成的字符串:^[A-Za-z]+$

    5 由26个大写英文字母组成的字符串:^[A-Z]+$

    6 由26个小写英文字母组成的字符串:^[a-z]+$

    7 由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$

    8 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$

    9 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$

    10 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

    11 可以输入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+

    12 禁止输入含有~的字符:[^~\x22]+

    三、特殊需求表达式

    1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

    2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

    3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

    4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

    5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$

    6 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}

    7 身份证号(15位、18位数字):^\d{15}|\d{18}$

    8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

    9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

    10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$

    11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

    12 日期格式:^\d{4}-\d{1,2}-\d{1,2}

    13 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$

    14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

    15 钱的输入格式:

    16    1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$

    17    2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$

    18    3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$

    19    4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$

    20    5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$

    21    6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$

    22    7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

    23    8.1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

    24    备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里

    25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

    26 中文字符的正则表达式:[\u4e00-\u9fa5]

    27 双字节字符:[^\x00-\xff]    (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))

    28 空白行的正则表达式:\n\s*\r    (可以用来删除空白行)

    29 HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? />    (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)

    30 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$)    (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)

    31 腾讯QQ号:[1-9][0-9]{4,}    (腾讯QQ号从10000开始)

    32 中国邮政编码:[1-9]\d{5}(?!\d)    (中国邮政编码为6位数字)

    33 IP地址:\d+\.\d+\.\d+\.\d+    (提取IP地址时有用)

    附录二 : 参考资料

    正则表达式检测工具:http://www.regexlab.com/zh/workshop.htm

    http://tool.oschina.net/regex

    参考文档: http://www.regexlab.com/zh/regref.htm

    http://deerchao.net/tutorials/regex/regex.htm

    http://lxcnn.cnblogs.com/

    相关文章

      网友评论

        本文标题:iOS中正则表达式的基本使用方法

        本文链接:https://www.haomeiwen.com/subject/fsrmhxtx.html