美文网首页
正则表达式指定字符后插入数据

正则表达式指定字符后插入数据

作者: 卓技卓品 | 来源:发表于2021-11-30 11:06 被阅读0次

    需求背景

    睡眠助理添加了古诗词显示效果,API接口返回的古诗词数据如下:

    {
        "status": "success",
        "data": {
            "id": "5b8b9572e116fb3714e6faba",
            "content": "君问归期未有期,巴山夜雨涨秋池。",
            "popularity": 1170000,
            "origin": {
                "title": "夜雨寄北",
                "dynasty": "唐代",
                "author": "李商隐",
                "content": [
                    "君问归期未有期,巴山夜雨涨秋池。",
                    "何当共剪西窗烛,却话巴山夜雨时。"
                ],
                "translate": [
                    "您问归期,归期实难说准,巴山连夜暴雨,涨满秋池。",
                    "何时归去,共剪西窗烛花,当面诉说,巴山夜雨况味。"
                ]
            },
            "matchTags": [
                "秋",
                "晚上"
            ],
            "recommendedReason": "",
            "cacheAt": "2018-09-17T21:18:44.693645"
        },
        "token": "6453911a-9ad7-457e-9b9d-c21011b85a0c",
        "ipAddress": "162.248.93.154"
    }
    

    我们可以看到,古诗词的内容(content)被按句分割成了不同的字符串,我希望实现在每个符号进行换行显示。所以需要在字符串中查找所有符号(中文:。?!;:及对应英文符号),然后替换。

    实现过程

    字符串的替换操作,很显然使用replaceAll实现。
    最初实现如下,,分别替换符号:

    str.replaceAll(",", "\n").replaceAll("。", "\n");
    

    但是这样实现发现代码很冗余,查询发现replaceAll支持正则表达式的方案,那么我们进行优化:

    str.replaceAll(":|:|,|,|\\.|。|;|;|\\?|?", "\n");
    

    这样实现了遇到符号替换成换行操作。
    但是效果是在勉强,为何?当遇到符号时,所有符号都会被替换成换行,导致原来的符号都没有了。
    然后继续优化,最终使用下面方式实现:

    str.replaceAll("(:|:|,|,|\\.|。|;|;|\\?|?)", "$1\n");
    

    通过()选择匹配到的内容,在替换数据中使用$1插入匹配到的数据,这样实现了既保留了原来的符号,又插入了换行符号的功能。

    总结

    replaceAll方法

    Replaces each substring of this string that matches the given regular expression with the given replacement.
    An invocation of this method of the form str.replaceAll(regex, repl) yields exactly the same result as the expression
    Pattern.compile(regex).matcher(str).replaceAll(repl) 
    Note that backslashes (\) and dollar signs ($) in the replacement string may cause the results to be different than if it were being treated as a literal replacement string; see Matcher.replaceAll. Use java.util.regex.Matcher.quoteReplacement to suppress the special meaning of these characters, if desired.
    

    翻译即是:

    用给定的替代字符串(replacement)替换此字符串中与给定正则表达式匹配的每个子字符串。
    以 str.replaceAll(regex, repl) 形式调用此方法会产生与下面正则表达式完全相同的结果:
    Pattern.compile(regex).matcher(str).replaceAll(repl)
    请注意,替换字符串中的反斜杠 (\) 和美元符号 ($) 可能会导致结果与将其视为文字替换字符串时的结果不同;参见 Matcher.replaceAll。如果需要,使用 java.util.regex.Matcher.quoteReplacement 取消这些字符的特殊含义。
    

    我们查看replaceAll方法,发现其直接调用了Pattern的compile方法:

    public String replaceAll(String regex, String replacement) {
        return Pattern.compile(regex).matcher(this).replaceAll(replacement);
    }
    

    相当于String内部实现了正则表达式的替换操作。

    Java正则表达式语法

    在其他语言中,\\ 表示:我想要在正则表达式中插入一个普通的(字面上的)反斜杠,请不要给它任何特殊的意义。
    在 Java 中,\\ 表示:我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义。
    所以,在其他的语言中(如 Perl),一个反斜杠 \ 就足以具有转义的作用,而在 Java 中正则表达式中则需要有两个反斜杠才能被解析为其他语言中的转义作用。也可以简单的理解在 Java 的正则表达式中,两个 \\ 代表其他语言中的一个 \,这也就是为什么表示一位数字的正则表达式是 \\d,而表示一个普通的反斜杠是 \\。

    字符 说明
    \ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如, n匹配字符 n。\n 匹配换行符。序列 \\\\ 匹配 \\ ,\\( 匹配 (。
    ^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与"\n"或"\r"之后的位置匹配。
    $ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与"\n"或"\r"之前的位置匹配。
    * 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配"z"和"zoo"。* 等效于 {0,}。
    + 一次或多次匹配前面的字符或子表达式。例如,"zo+"与"zo"和"zoo"匹配,但与"z"不匹配。+ 等效于 {1,}。
    ? 零次或一次匹配前面的字符或子表达式。例如,"do(es)?"匹配"do"或"does"中的"do"。? 等效于 {0,1}。
    {n} _n _是非负整数。正好匹配 n 次。例如,"o{2}"与"Bob"中的"o"不匹配,但与"food"中的两个"o"匹配。
    {n,} _n _是非负整数。至少匹配 _n _次。例如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有 o。"o{1,}"等效于"o+"。"o{0,}"等效于"o*"。
    {n,m} mn 是非负整数,其中 n <= m。匹配至少 n 次,至多 m 次。例如,"o{1,3}"匹配"fooooood"中的头三个 o。'o{0,1}' 等效于 'o?'。注意:您不能将空格插入逗号和数字之间。
    ? 当此字符紧随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之后时,匹配模式是"非贪心的"。"非贪心的"模式匹配搜索到的、尽可能短的字符串,而默认的"贪心的"模式匹配搜索到的、尽可能长的字符串。例如,在字符串"oooo"中,"o+?"只匹配单个"o",而"o+"匹配所有"o"。
    . 匹配除"\r\n"之外的任何单个字符。若要匹配包括"\r\n"在内的任意字符,请使用诸如"[\s\S]"之类的模式。
    (pattern) 匹配 pattern 并捕获该匹配的子表达式。可以使用 $0…$9 属性从结果"匹配"集合中检索捕获的匹配。若要匹配括号字符 ( ),请使用"\("或者"\)"。
    (?:pattern) 匹配 pattern 但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配。这对于用"or"字符 (
    (?=pattern) 执行正向预测先行搜索的子表达式,该表达式匹配处于匹配 pattern 的字符串的起始点的字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,'Windows (?=95
    (?!pattern) 执行反向预测先行搜索的子表达式,该表达式匹配不处于匹配 pattern 的字符串的起始点的搜索字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,'Windows (?!95|98|NT|2000)' 匹配"Windows 3.1"中的 "Windows",但不匹配"Windows 2000"中的"Windows"。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。
    x|y 匹配 xy。例如,'z|food' 匹配"z"或"food"。'(z|f)ood' 匹配"zood"或"food"。
    [xyz] 字符集。匹配包含的任一字符。例如,"[abc]"匹配"plain"中的"a"。
    [^xyz] 反向字符集。匹配未包含的任何字符。例如,"[^abc]"匹配"plain"中"p","l","i","n"。
    [a-z] 字符范围。匹配指定范围内的任何字符。例如,"[a-z]"匹配"a"到"z"范围内的任何小写字母。
    [^a-z] 反向范围字符。匹配不在指定的范围内的任何字符。例如,"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符。
    \b 匹配一个字边界,即字与空格间的位置。例如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er"。
    \B 非字边界匹配。"er\B"匹配"verb"中的"er",但不匹配"never"中的"er"。
    \c_x_ 匹配 x 指示的控制字符。例如,\cM 匹配 Control-M 或回车符。x 的值必须在 A-Z 或 a-z 之间。如果不是这样,则假定 c 就是"c"字符本身。
    \d 数字字符匹配。等效于 [0-9]。
    \D 非数字字符匹配。等效于 [^0-9]。
    \f 换页符匹配。等效于 \x0c 和 \cL。
    \n 换行符匹配。等效于 \x0a 和 \cJ。
    \r 匹配一个回车符。等效于 \x0d 和 \cM。
    \s 匹配任何空白字符,包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。
    \S 匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效。
    \t 制表符匹配。与 \x09 和 \cI 等效。
    \v 垂直制表符匹配。与 \x0b 和 \cK 等效。
    \w 匹配任何字类字符,包括下划线。与"[A-Za-z0-9_]"等效。
    \W 与任何非单词字符匹配。与"[^A-Za-z0-9_]"等效。
    \x_n_ 匹配 n,此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如,"\x41"匹配"A"。"\x041"与"\x04"&"1"等效。允许在正则表达式中使用 ASCII 代码。
    _num_ 匹配 num,此处的 num 是一个正整数。到捕获匹配的反向引用。例如,"(.)\1"匹配两个连续的相同字符。
    _n_ 标识一个八进制转义码或反向引用。如果 _n_ 前面至少有 n 个捕获子表达式,那么 n 是反向引用。否则,如果 n 是八进制数 (0-7),那么 n 是八进制转义码。
    _nm_ 标识一个八进制转义码或反向引用。如果 _nm_ 前面至少有 nm 个捕获子表达式,那么 nm 是反向引用。如果 _nm_ 前面至少有 n 个捕获,则 n 是反向引用,后面跟有字符 m。如果两种前面的情况都不存在,则 _nm_ 匹配八进制值 nm,其中 _n _和 m 是八进制数字 (0-7)。
    \nml n 是八进制数 (0-3),ml 是八进制数 (0-7) 时,匹配八进制转义码 nml
    \u_n_ 匹配 n,其中 n 是以四位十六进制数表示的 Unicode 字符。例如,\u00A9 匹配版权符号 (©)。

    相关文章

      网友评论

          本文标题:正则表达式指定字符后插入数据

          本文链接:https://www.haomeiwen.com/subject/ipfdxrtx.html