美文网首页
正则表达式(一)

正则表达式(一)

作者: Lstone | 来源:发表于2017-07-02 19:23 被阅读50次

    正则表达式是用于匹配字符串的模板.正则表达式就是创建一个特殊的字符串模板.支持的合法字符如表:

    String类提供了对正则表达式的支持.

    public void strRegexTest(){
         String strContent = "dogdcgdbg";
         //判断 strContent支付串是否匹配指定的正则表达式 dog
         strContent.matches("dog");
          //将字符串中所有匹配 dbg的子串替换成 dog
         strContent.replaceAll("dbg","dog");
         //将字符串中第一个匹配正则表达式的子串dbg替换成dog
         strContent.replaceFirst("dbg","dog");
        //String[] split(String regex)以 regex 表示的内容为分隔符,将字符串分割成多个子串.
    
    }
    

    正则表达式支持的合法字符表

    字符 解释
    x 字符 x 代表任何合法字符
    \0mnn 八进制数0mnn所表示的字符
    \xhh 十六进制 hh表示的字符
    \uhhhh 十六进制0xhhhh 表示的 Unicode字符
    \t 制表符('\u0009')
    \n 换行符('\u000A')
    \r 回车符('\u000D')

    在定义一个正则表达式模板的时候,如果想要匹配一个一个字符串中是否有换行符 ,则正则表达式可以定义为 String regex ="\n"; 如果一个正则表达式regex ="\u0041",当使用正则表达式进行对字符串进行匹配的时候,会检查字符串中是否有 Unicode 码('\u0041')所表示的字符.

    特殊字符

    在 java字符串两个反斜杠(\\)相当于一个反斜杠(). 正则表达式中两个反斜杠(\)表示字符串中的一个反斜杠(),因此匹配字符串中的"\\" ,正则表达式为"\\\\".

    特殊字符 说明
    $ 匹配一行的结尾,要匹配$字符本身,需要使用 \$
    ^ 匹配一行的开头,如果需要匹配本身,需要使用\
    () 标记子表达式的开始和结束
    [] 匹配内容开始和结束.
    {} 标记前面只表达式出现的频度
    * 标记前面的子表达式可以出现零次或者多次
    + 前面的表达式何以出现一次或者多次
    ? 前面的表达式可以出现一次或者零次
    . 匹配除了换行符之外的任何当个字符
    转义字符
    指定两者之间选一个

    \u0041\\\\ 匹配 A
    (dog)+ 能够匹配连续的多个 dog 字符串
    \\?\\] 匹配?]

    通配符

    通过上面介绍的正则表达式,如果想利用正则表达式匹配字符串中是否有数字的正则表达式为 [0123456789]*.
    如果匹配一个英文字符串则需要将每个字符都定义一下,这样未免太过笨重.这些问题可以通过正则表达式提供的通配符解决

    通配符 说明
    . 匹配匹配任何字符
    \d 匹配任何数字
    \D 匹配任何非数字
    \w 匹配所有的字符,字符数字下划线_
    \W 与\w 相反
    \s 匹配所有的空白字符,包括空格,换行,回车符等
    \S 匹配所有的非空白字符

    通过通配符使用正则表达式匹配一些字符串则会比较简单.
    \\d* 匹配一串数字 ,数字的长度为0或者多个
    c\\wt 匹配任何 c*t 形式的字符串例如 cat c0t等

    方括号表达式

    在一些情况下,如果只想匹配 a~f 或者 ab 之外的小写字母,通配符就无能为力了,此时需要方括号表达式,这些需要在方括号中使用,方括号表达式有一下几种形式.

    方括号表达式 说明
    表示中任意一个 [123]表示123中的任意一个字符
    表示范围: - [a-f]表示 a~f范围内的任意字符,[a-fx-z]表示 a~f x~z 范围内的任意字符
    ^表示求否 [^abc]非 abc 的任意字符,[^a-f]非 a~f 任意字符
    && [a-z&&[def]] ,求交集,表示只能匹配 d,e,f
    表示并运算 a-d[e-f]即匹配范围为[a-de-f]

    使用方括号表达式要灵活很多,中文字符的 Unicode 值都是连续的,所以只需要找出最小的和最大的Unicode值,就可以利用上面的形式来匹配所有的中文字符[\u0041-\u0056]就可以匹配所有的中文字符.

    圆括号表达式

    圆括号中可以使用圆括号表达式或运算符(|).例如((com)|(cn)|(org))用于访问字符串之一.

    边界匹配符

    边界匹配符 说明
    ^ 行的开头
    $ 行的结尾
    \b 单词的边界
    \B 非单词的边界
    \A 输入的开头
    \G 前一个匹配的结尾
    \Z 输入的结尾,仅用于最后的结束符
    \z 输入的结尾

    正则表达式支持的数量标识符的几种模式:
    1.Greedy (贪婪模式):贪婪模式表达式会一直匹配下去只到无法匹配为止
    2.Reluctant(勉强模式):用问号(?)后缀表示,通常只会匹配最少字符.也成为最小匹配模式.

    public static void  regexGreep(){
    //贪婪模式,尽量匹配最多
        String regex ="\\w+";
        String targetStr = "Hello World";
        Pattern pattern =Pattern.compile(regex);
        Matcher matcher = pattern.matcher(targetStr);
        if(matcher.find()){
          System.out.println("贪婪模式"+matcher.group(0));
        }
    //勉强模式,匹配最少
        String regexGreep ="\\w+?";
        Pattern patternGreep =Pattern.compile(regexGreep);
        Matcher matcherGreep = patternGreep.matcher(targetStr);
        if(matcherGreep.find()){
            System.out.println("勉强模式:"+matcherGreep.group(0));
        }   
    }
    //贪婪模式Hello
    //勉强模式:H
    

    相关文章

      网友评论

          本文标题:正则表达式(一)

          本文链接:https://www.haomeiwen.com/subject/uwgncxtx.html