美文网首页
spilt的坑

spilt的坑

作者: 箭头盒子 | 来源:发表于2018-03-13 21:02 被阅读0次

    之前对于string.spilt()的用法没有做过仔细研究,线上的项目已经上线很久,查看error日志,发现了ArrayIndexOutOfBoundsException(数组越界).百思不得其解,追踪相应代码也没有发现有明显异常,spilt()用法看着没有明显错误,所有的报文解析中,在一个小时内只出现了这么两笔订单查询报错.很是诡异.于是拿着订单号,追踪全部日志.
    根据正常和异常返回日志,进行现场复原.debug时,发现了异常.

    自己写了一个小demo复原:
    字符串中包含编程语言信息,其中每个语言通过"|",进行分割.形如"java|C|C#|C++|Python",spilt数组应该有5个对象.我们对字符串进行稍加改动,形如java|C||C#|C++|Python,java|C||C#|C++|Python||,spitl在对字符串进行分割的时候就有些许不同了.

            String str0 = "java|C|C#|C++|Python";
            String str1 = "java|C||C#|C++|Python";
            String str2 = "java|C||C#|C++|Python||";
            String[] lans1 = str0.split("\\|");
            String[] lans2 = str1.split("\\|");
            String[] lans3 = str2.split("\\|");
            System.out.println("lans1.length: "+lans1.length);
            System.out.println("lans2.length: "+lans2.length);
            System.out.println("lans3.length: "+lans3.length);
            System.out.println("Spilt的坑");
    

    我们预估lans1.length = 5;lans2.length =6;lans3.length =8


    输出结果

    可以看到实际输出并不是如我们预计.为什么呢?半路出家学java,这个地方咋整呢,ctrl + click 看下源码吧.

        public String[] split(String regex) {
            return split(regex, 0); //这个地方的"0",作为默认参数传入,此事必有蹊跷.
        }
    

    regex不用解释,就是进行分割的正则表达.
    我们深入public String[] split(String regex, int limit)看下第二个参数有什么作用.

        public String[] split(String regex, int limit) {
            /* fastpath if the regex is a
             (1)one-char String and this character is not one of the
                RegEx's meta characters ".$|()[{^?*+\\", or
             (2)two-char String and the first char is the backslash and
                the second is not the ascii digit or ascii letter.
             */
            char ch = 0;
            if (((regex.value.length == 1 &&
                 ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
                 (regex.length() == 2 &&
                  regex.charAt(0) == '\\' &&
                  (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
                  ((ch-'a')|('z'-ch)) < 0 &&
                  ((ch-'A')|('Z'-ch)) < 0)) &&
                (ch < Character.MIN_HIGH_SURROGATE ||
                 ch > Character.MAX_LOW_SURROGATE))
            {
                int off = 0;
                int next = 0;
                boolean limited = limit > 0;
                ArrayList<String> list = new ArrayList<>();
                while ((next = indexOf(ch, off)) != -1) {
                    if (!limited || list.size() < limit - 1) {
                        list.add(substring(off, next));
                        off = next + 1;
                    } else {    // last one
                        //assert (list.size() == limit - 1);
                        list.add(substring(off, value.length));
                        off = value.length;
                        break;
                    }
                }
                // If no match was found, return this
                if (off == 0)
                    return new String[]{this};
    
                // Add remaining segment
                if (!limited || list.size() < limit)
                    list.add(substring(off, value.length));
    
                // Construct result
                int resultSize = list.size();
                if (limit == 0) {
                    while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                        resultSize--;
                    }
                }
                String[] result = new String[resultSize];
                return list.subList(0, resultSize).toArray(result);
            }
            return Pattern.compile(regex).split(this, limit);
        }
    

    先不看if条件语句,我们的重点是判断一下第二参数的作用,(if条件判断很复杂,没看懂呀)
    结论就是:

    • imit > 0 ,模式最多使用n-1次,数组长度不会大于n,而且数组的最后一项将包含所有超出最后匹配的定界符的输入。
    • limit <=0, 模式会使用尽可能多的次数,而且数组是任意长度。如果limit = 0,那么最后的空字符串会被丢弃

    建议使用Guava中的Spilter中的方法。

    List<String> params = Splitter.on("|").splitToList(response);
    

    相关文章

      网友评论

          本文标题:spilt的坑

          本文链接:https://www.haomeiwen.com/subject/genofftx.html