美文网首页沐汐技术博客
java正则表达式使用

java正则表达式使用

作者: Whyn | 来源:发表于2017-07-21 16:53 被阅读99次

    简介

    对于一些文本操作,正则表达式提供了强有力的辅助,它允许我们通过带有描述性性质的描述语言,得到我们需要的文本数据。

    java正则表达式功能类简介

    对于java而言,其在java.util.regex包中给我们提供了正则表达式功能,该包结构如下图所示:

    java.util.regex
    可以看到,regex包下包含一个接口MatchResult,两个类Pattern,Matcher,以及一个异常类PatternSyntaxException
    其中:
    MatchResult:代表匹配操作的结果,该接口提供了查询方法用来检测匹配器匹配正则表达式的结果。通过MatchResult,可以查看匹配边界,匹配组合以及组边界,但是不能进行修改。

    Pattern:正则表达式的编译表现形式。指定为正则表达式的字符串必须首先被编译成此类的实例,然后,可将得到的模式用于创建Matcher对象,依照正则表达式,该对象可与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。

    Matcher:执行由Pattern解释的字符串序列操作引擎。Matcher实现了MatchResult

    PatternSyntaxException:当正则表达式解析出错时抛出该异常。

    通配符简介

    java正则表达式的全部通配符介绍可以在官网API中查看,下面主要介绍其中一些比较常用的:

    字符类
    [abc] 匹配a或者b或者c
    [^abc] 除了a,b,c以外的字符都匹配
    [a-zA-Z] a-z,A-Z任意一个字符都匹配
    [a-d[m-p]] a-d或者m-p中任意一个字符都匹配
    [a-z&&[def]] 同时满足a-z和d,e,f中的一个则匹配(并集)
    [a-z&&[^bc]] a-z任意一个字符都匹配,除了b和c
    预定义字符类
    . 任意字符 (与<u>行结束符</u>可能匹配,也可能不匹配)
    \d 数字 [0-9]
    \D 非数字 [^0-9]
    \s 空白字符 [ \t\n\x0B\f\r]
    \S 非空白字符 [^\s]
    \w 字符类型 [a-zA-Z_0-9]
    \W 非字符类型 [^\w]
    边界匹配器
    ^ 行开头
    $ 行结尾
    \b 单词边界
    \B 非单词边界
    Greedy 数量词
    X? X,一次或一次也没有
    X* X,零次或多次
    X+ X,一次或多次
    X{n} X,恰好n次
    X{n,} X,至少n次
    X{n,m} X,至少n次,但不超过m次

    例子

    正则表达式对文本的操作总结起来为:匹配,切割,替换,获取。

    • 匹配
      判断给定字符串是否符合QQ号码格式。
      (QQ号码格式规范:
      1.全部为数字
      2.起码6位数字以上,不超过15位数;
      3.第一个数字不能为0;)
        String str = "23453463456";
        Pattern pattern = Pattern.compile("[1-9]\\d{5,15}");
        Matcher matcher = pattern.matcher(str);
        boolean bMatch = matcher.matches();
        System.out.println("match="+bMatch);
    
    • 切割
      对给定字符串,按空格进行切割。
        String str="first   second   third  ";
        Pattern pattern = Pattern.compile("\\s+");//或者“ ”+
        String[] splits = pattern.split(str);
        for(int i = 0 ; i < splits.length ; ++i){
            System.out.println("splits["+i+"]="+splits[i]);
        }
    
    • 替换
      对给定字符串,按叠词进行替换,将叠词数量保留一位。
        String str="abb3dadadfa333aaaaaaaa";
        Pattern pattern = Pattern.compile("(.)\\1+");
        Matcher matcher = pattern.matcher(str);
        String replaceStr = matcher.replaceAll("$1");
        System.out.println("replaceStr="+replaceStr);
    

    注: 此处使用了组概念,用符号()表示一个组,正则表达式"(.)\1+"表达的意思是:任意字符,\1表示引起第一组的结果,也就是(.)的字符,所以这句话的意思就是第一个字符是任意字符,后面一个字符跟前一个一致,有一个或一个以上。
    “$1"表示引用第一个组的内容。

    • 获取
      对给定字符串,取出大括号{}内的字符串。
        String str = "users/{user}/repos/{page}/";
        Pattern pattern = Pattern.compile("\\{([a-zA-Z][a-zA-Z0-9_-]*)\\}");
        Matcher matcher = pattern.matcher(str);
        while(matcher.find()){
            String findstr = matcher.group();
            System.out.println("findstr="+findstr);
        }
    

    最后,网上有很多可以直接对正则进行验证的在线工具,大家可以去找找看。

    相关文章

      网友评论

        本文标题:java正则表达式使用

        本文链接:https://www.haomeiwen.com/subject/caekkxtx.html