美文网首页
正则表达式解析http的bodyContent输出key-val

正则表达式解析http的bodyContent输出key-val

作者: biaoqianwo | 来源:发表于2022-02-18 14:41 被阅读0次

    概述

    近来一个同事给了一个文本要求写一个正则表达式解析。
    文本如下

    bodyContent:----------------------------964864704429906130621362
    Content-Disposition: form-data; name="messageid"
    
    PO
    ----------------------------964864704429906130621362
    Content-Disposition: form-data; name="method"
    
    putPOData
    ----------------------------964864704429906130621362
    Content-Disposition: form-data; name="timestamp"
    
    2022-02-16 13:48:19
    ----------------------------964864704429906130621362
    Content-Disposition: form-data; name="format"
    
    json
    ----------------------------964864704429906130621362
    Content-Disposition: form-data; name="data"
    
    {"xmldata":{"header":[{"CUSTOMERID":"201","EXPECTSTORAGEDATE":"","INOUTTYPE":1,"NOTES":"2019-2020下单提货","ORDERNO":"1001A2100000002DSYYS","ORDERTYPE":"21-Cxx-01","POCREATIONTIME":"2022-02-16 11:08:24","POREFERENCE2":"","POREFERENCE4":"CD20122021600131","SUPPLIERID":"201S10068","SUPPLIER_NAME":"xxx股份有限公司","USERDEFINE2":"陈xx","USERDEFINE3":"0124011","WAREHOUSEID":"WH01","detailsItem":[{"CUSTOMERID":"201","LOTATT01":"","LOTATT02":"","LOTATT04":"","LOTATT06":"浙械注准20192400498","LOTATT07":"肌钙蛋白I测定试剂盒(免疫荧光干式定量法)","LOTATT08":"N","NOTES":"","ORDEREDQTY":10,"ORDEREDQTY_EACH":10,"ORDERNO":"CD20122021600131","SKU":"694117919349","USERDEFINE1":"1001A2100000002DSYYT","USERDEFINE2":"1001A2100000002DSYYS"}]}]}}
    ----------------------------964864704429906130621362
    Content-Disposition: form-data; name="OperationCode"
    
    FLUXWMSJSAPI.operation
    ----------------------------964864704429906130621362--
    

    这是一个http的body内容块,我稍微删除了几段,期望解析得到:
    messageid:PO
    method:putPOData
    timestamp:2022-02-16 13:48:19
    等。

    思路

    1. 找出要匹配的文本块,类似:
    name="messageid"
    
    PO
    

    首先将要查找的部分用通配符替换,把要匹配的部分用括号括起来。

    name="(\S+)"[\n\r]+([ \S]+)
    

    其中:

    \S 表示非换行符
    \n\r 表示换行和回车符
    + 表示至少一次
    因为timestamp和data的内容部分的日期部分有空格,所以后面用到了[ \S]+
    
    1. 可以将正则表达式和文本拷贝到超好用的正则测试网站,输出结果符合预期:

      image.png
      如果不合适就调整正则表达式,根据表达式全集去调整。
    2. 要得到代码,可以使用正则表达式在线测试|菜鸟工具

      image.png
      需要稍作调整,
      比如javascript语言部分:
    <script>
    // 定义 正则 RegExp 对象
    var pattern = new RegExp('name="(\\S+)"[\\n\\r]+([ \\S]+)',"g");
    // 简化写法
    // var pattern = /name="(\S+)"[\n\r]+([ \S]+)/g;
    
    // 用 `` 括起长文本
    var str = `
    这里是长文本
    `;
    
    //console.log(str);
    console.log(pattern);
    
    // 匹配结果
    var arr = null;
    while(arr = pattern.exec(str)){
        console.log(arr[1]);
        console.log(arr[2]);
        console.log('\n\r');
    }
    </script>
    

    用到了pattern.exec()和while循环。

    php语言的写法:

    <?php
    $str = '这里是长文本';
    // 或者使用
    $str = <<<heredoc
    这里是长文本
    heredoc;
    $isMatched = preg_match_all('/name="(\S+)"[\n\r]+([ \S]+)/', $str, $matches);
    var_dump($str, $isMatched, $matches);
    // $isMatched 匹配数量
    // $matches 匹配结果,二维数组
    // $matches[0] 是最外层的字符串 $matches[1]匹配的第1个括号  $matches[2]匹配的第2个括号
    

    用到长文本表示,preg_match_all()。

    java语言:

    import java.io.BufferedReader;
    import java.io.File;
    import java.io.FileReader;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    
    
    public class ZhengzeTest {
    
        public static String txt2String(File file) {
            StringBuilder result = new StringBuilder();
            try {
                BufferedReader br = new BufferedReader(new FileReader(file));//构造一个BufferedReader类来读取文件
                String s = null;
                while ((s = br.readLine()) != null) {//使用readLine方法,一次读一行
                    result.append(System.lineSeparator() + s);
                }
                br.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
            return result.toString();
        }
    
        public static void main(String[] args) {
            File file = new File("D:\\java\\code\\java-example\\src\\helloworld.txt");
            String str = txt2String(file);
    //        System.out.println(str);
    
            String pattern = "name="(\\S+)"[\\n\\r]+([ \\S]+)";
            Pattern r = Pattern.compile(pattern);
            Matcher m = r.matcher(str);
            while (m.find()) { // 多个匹配结果,此处用while循环遍历
    //            System.out.println(m.group(0)); // 匹配的完整字符串
                System.out.println(m.group(1)); // 匹配的第1个括号的内容,此处为key
                System.out.println(m.group(2)); // 匹配的第2个括号的内容,此处为value
                System.out.println();
            }
        }
    }
    

    用到了文件操作,while。

    得到期望的结果:


    image.png

    相关文章

      网友评论

          本文标题:正则表达式解析http的bodyContent输出key-val

          本文链接:https://www.haomeiwen.com/subject/szhylrtx.html