美文网首页
解析规则学习--正则解析

解析规则学习--正则解析

作者: lily_佳忆 | 来源:发表于2017-08-29 15:26 被阅读175次

    俗话说,无规矩不成方圆,任何事物都是有着他的规律的,尤其对于日志数据更需要进行规范管理,才能更好的被我们使用。话不多说,下面简单聊聊我自己的一些认识吧。

    解析规则重要概念
      通常对于一条日志,我们看一大串日志的时候特别累,尤其是各种开发/运维大大们,每天看着大量的日志,很容易头昏眼花的,这就需要我们能够将这大量的日志规范管理起来,能够快速便捷的看到需要的关键字段及发生时间等。

    下面说下日志数据的几个概念:

    • event(事件): 一条日志称为一个事件,即对该条日志进行有效信息提取
    • timestamp(时间戳): 这里的timestamp指日志发生的时间,准确的发生时间可以帮我们快速定位
    • field(字段): 即需要抽取出来的关键字段

    日志的解析
      日志解析的主要作用就是抽取用户需要的字段,便于用户快速搜索。

    例如这样一条日志:

    217.197.192.20 - - [04/Jul/2016:19:24:47] "GET /product.screen?productId=DC-SG-G02&JSESSIONID=SD3SL10FF7ADFF5228 HTTP 1.1" 200 1331 "http://www.buttercupgames.com/cart.do?action=addtocart&itemId=EST-16&productId=DC-SG-G02" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; BOIE9;ENUS)" 142

    要抽取出如下字段:

    "productId": "DC-SG-G02",
    "verb": "GET",
    "JSESSIONID": "SD3SL10FF7ADFF5228",
    "menu": "product.screen",
    "response": "200",
    "bytes": "1331",
    "clientIp": "217.197.192.20",
    "httpversion": "1.1",
    "timestamp": "04/Jul/2016:19:24:47"

    这就需要通过配置解析规则来提取出相应的字段。

    下面我们就简单介绍一下最常用也最好用的正则解析。

    正则表达式概念

      正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
      正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,然后用这个“规则字符串”来对原始字符串进行过滤。
      正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。

    限定字符

    限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。

    限定字符 描述
    \ 可以理解为“转义字符”
    * 匹配子表达式0次或任意多次,等价于{0,}。
    + 匹配子表达式1次或多次(至少1次),+等价于{1,}。
    ? 匹配子表达式0次或1次,或指明一个非贪婪限定符。
    . 匹配除“\r\n”之外的任何单个字符。
    {n} n是一个非负整数,匹配确定的n次。
    {n,} n是一个非负整数,至少匹配n次。
    “{1,}”等价于“o+”。“{0,}”则等价于“o*”。
    {n,m} m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。
    请注意在逗号和两个数之间不能有空格。

    *、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
    例如,搜索 HTML 文档,查找括在 H1 标记内的章节标题,如下:

    <H1>介绍正则表达式</H1>

    贪婪:匹配从小于符号 (<) 到大于符号 (>) 之间的所有内容:

    /<.*>/

    非贪婪:只匹配开始和介绍 H1 标记:

    /<.*?>/

    如果只想匹配开始的 H1 标签:

    /<\w+?>/

    定位字符

    定位符能够快速将正则表达式固定到行首或行尾,也能够用来描述字符串或单词的边界,^ 和 $ 分别指字符串的开始与结束,\b 描述单词的前或后边界,\B 表示非单词边界。

    定位字符 描述
    \b 匹配一个单词边界,也就是指单词和空格间的位置。
    例如:“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
    \B 匹配非单词边界。
    例如:“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”
    ^ 匹配输入字符串的开始位置。
    若在方括号表达式中使用,此时它表示不接受该字符集合。
    $ 匹配输入字符串的结尾位置。
    [ 标记一个中括号表达式的开始。
    { 标记限定符表达式的开始。

    注意:不能将限定符与定位符一起使用。由于在紧靠换行或者字边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。

    捕获分组

    捕获分组,顾名思义,分组就是用小括号里将指定子表达式包裹起来,而捕获就是在使用小括号指定一个子表达式后,匹配这个子表达式的文本(即匹配的内容)

    字符分组 描述
    (pattern) 标记一个子表达式的开始和结束位置,将( 和 ) 之间的表达式定义为“组”(group),匹配pattern并获取这一匹配。
    (?:pattern) 非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。
    (?=pattern) 非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。预查不消耗字符,也就是说,在一个匹配发生后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
    (?!pattern) 非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。
    (?<name>pattern) 匹配,并pattern捕获文本到名称为name的组里

    字符匹配

    方括号表示某些字符允许在一个字符串中的某一特定位置出现

    字符 描述
    [xyz] 字符集合。匹配所包含的任意一个字符。例如:“[abc]”可以匹配“plain”中的“a”。
    [^xyz] 负值字符集合。匹配未包含的任意字符。例如:“[abc]”可以匹配“plain”中的“plin”。[,]匹配除逗号外的 0或者多个非逗号字符, ([^,] \ ) 将这些非逗号字符标记为\1,这样可以在之后的替换模式表达式中引用它, ([^,]*\ ), 我们必须找到0或者多个非逗号字符后面跟着一个逗号,并且非逗号字符那部分
    [a-z] 字符范围。匹配指定范围内的任意字符。例如:“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围。
    [^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如:“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。

    在方括号里可以用'^' 表示不希望出现的字符,'^' 应在方括号里的第一位。(如:"%[^a-zA-Z]%"表示两个百分号中不应该出现字母)。

    其他常用字符

    常用字符 描述
    \d 匹配一个数字字符。等价于[0-9]。
    \D 匹配一个非数字字符。等价于[^0-9]。
    \s 匹配任何不可见字符,包括空格、制表符、换页符等等。
    \S 匹配任何可见字符。
    \w 匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的"单词"字符使用Unicode字符集。
    \W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。

    实例应用
    1、匹配日期:

    28 十月 2016 08:38:01,745 INFO 1477530920004|616 frame.login.Login

    正则表达式:

    ^ \d{2} \S* \d{4} \d{2}:\d{2}:\d{2},\d+

    其中,\d表示匹配数值,\d{2}表示匹配2位数值,\S表示匹配非空字符
    常用于多行合并

    2、对规范日志提取字段

    2016-05-14 23:24:47 worker01 25629 INFO Accepted password for root from 192.168.31.182 port 52119 ssh2

    正则表达式:

    (?<timestamp>\S+ \S+) (?<hostname>\S+) (?<pid>\S+) (?<LogLevel>\S+) (? <msg>.*)

    其中,\S 表示匹配非空字符,\S+ 表示匹配连续的非空字符,(?<key>value) 表示提取字段名为key 的字段,其值为value, . 表示匹配除“\r\n”之外任何单词字符,* 表示匹配0或多个字符。

    3、对xml日志提取字段

    <ns3:ConsumerId>0006</ns3:ConsumerId><ns3:TranSeqNo>1234567890</ns3:TranSeqNo>

    正则表达式:

    ((<(\w* :)?ConsumerId>)(?<ConsumerId>[^<])(</(\w:)?ConsumerId>))
    ((<(\w* :)?TranSeqNo>)(?<TranSeqNo>[^<])(</(\w:)?TranSeqNo>))

    其中,\w表示匹配包括下划线的任何单词字符,表示匹配0或多个字符,[^<]表示匹配除 < 外的任何字符。
    常用于在xml日志中,根据提取字段的规范格式,输入正则表达式进行匹配

    4、字节转码

    00000000h: 30 30 30 30 34 35 34 35 3c 3f 78 6d 6c 20 76 65 ; 00004545<?xml.ve
    00000010h: 72 73 69 6f 6e 3d 22 31 2e 30 22 20 65 6e 63 6f ; rsion="1.0".enco
    00000020h: 64 69 6e 67 3d 22 55 54 46 2d 38 22 3f 3e 3c 53 ; ding="UTF-8"?><S
    00000030h: 53 56 42 3e 3c 54 41 63 42 6c 63 56 69 65 77 52 ; SVB>

    正则表达式:

    ([0-9a-fA-F]{2} ){3,30}

    [ ] 中的内容是可选字符集
    [0-9a-fA-F] 表示要求字符范围在0-9,a-f,A-F之间
    {3,30}表示数字字符串长度合法为3到30,即为[0-9a-fA-F]中的字符出现次数的范围是3到30次。

    5、常用数字匹配

    ^[1-9]\d* $   //匹配正整数   
    ^-[1-9]\d* $   //匹配负整数   
    ^-?[1-9]\d* $ //匹配整数   
    ^[1-9]\d* |0$ //匹配非负整数(正整数 + 0)   
    ^-[1-9]\d* |0$ //匹配非正整数(负整数 + 0)   
    ^\s* |\s* $   //匹配首尾空白字符的正则表达式
    \n\s* \r    //匹配空白行的正则表达式

    6、限制输入6-20个字母、数字、下划线

    /^(\w){6,20}$/

    \w:用于匹配字母,数字或下划线字符
    ^ 表示打头的字符要匹配紧跟^后面的规则
    $ 表示打头的字符要匹配紧靠$前面的规则

    7、限制只能输入5-20个以字母开头、可带数字、“_”、“.”的字串

    /^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/

    ^[a-zA-Z]{1} 表示第一个字符要求是字母。
    ([a-zA-Z0-9]|[.]){4,19} 表示从第二位开始的一个长度为4到19位的字符串是由大小写字母、数字以及特殊字符集[.]组成。

    持续更新中。。。。

    相关文章

      网友评论

          本文标题:解析规则学习--正则解析

          本文链接:https://www.haomeiwen.com/subject/cfuodxtx.html