美文网首页
linux常用工具—awk

linux常用工具—awk

作者: longlong_ | 来源:发表于2018-05-17 08:16 被阅读0次

    一、前言

    awk是一款非常棒的数据处理工具。相比与sed常常作用于一整行的处理,awk则比较倾向于将一行分成数个“字段”来处理。因此awk适用于处理小型数据。

    二、语法说明

    awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
    awk后面接两个单引号并加上大括号{}来设置想要对数据处理的动作。awk可以处理文件也可以读取来自前一个命令的standardoutput(标准输出流)。awk主要是处理每一行字段内的数据,而默认字段的分隔符为空格键或者[tab]键。举例说明:

    1. 使用last -n 5命令获取最后五次登陆者的信息,结果如下:
    [root@iZxvryruh5alhlZ ~]# last -n 5
    root     pts/1        115.200.208.227  Thu May 17 07:57   still logged in
    root     pts/1        36.24.123.198    Mon May 14 06:55 - 14:55  (08:00)
    root     pts/2        36.24.123.198    Mon May 14 06:54 - 06:55  (00:01)
    root     pts/1        36.24.123.198    Mon May 14 06:49 - 06:53  (00:04)
    root     pts/0        36.24.123.198    Sun May 13 14:39 - 00:39  (10:00)
    
    1. 若只想取出账号和登陆者IP,且账号与IP之间用[tab]分隔,如下:
    [root@iZxvryruh5alhlZ ~]# last -n 5 | awk '{print $1 "\t" $3}'
    root    115.200.208.227
    root    36.24.123.198
    root    36.24.123.198
    root    36.24.123.198
    root    36.24.123.198
    

    如上所示,每一行每个字段都是有变量名称的,那就是$1,$2,$3等变量名称。分别代表以空格或[tab]分隔的第一个字符串、第二个字符串、第三个字符串。上述$1就是root,$3就是IP。还有一个变量$0,$0代表的是一整行数据

    三、处理流程

    • 整个awk的处理流程是:
    1. 读取第一行,并将第一行的数据填入$0,$1,$2等变量中;
    2. 根据条件类型的限制,判断是否处理后面的动作;
    3. 做完所有的条件类型判断和动作;
    4. 若还有后续的“行”的数据,则重复1~3的步骤,直到所有的数据都读完为止。
    • awk的内置变量:
      awk为什么会知道我的数据有几行几列呢?那就需要awk的内置变量帮忙了,如下表所示:
    变量名称 代表意义
    NF 每一行($0)所拥有的字段总数
    NR 目前awk处理的是第几行数据
    FS 目前的分隔字符,默认是空格

    继续上面的last -n 5,如果我想要:1、列出所有账号,2、列出目前处理的行数,3、改行有多少个字段。那么可以写成这样:

    [root@iZxvryruh5alhlZ ~]# last -n 5 | awk '{print $1 "\t lines:" NR "\t columes:" NF}'
    root     lines:1         columes:10
    root     lines:2         columes:10
    root     lines:3         columes:10
    root     lines:4         columes:10
    root     lines:5         columes:10
    

    四、逻辑运算符

    之前说过,awk有条件判断,那么自然会有一些逻辑运算符了。如下表所示:

    运算符 代表意义
    < 小于
    > 大于
    <= 小于等于
    >= 大于等于
    == 等于
    != 不等于

    我们来实际运用一下逻辑判断吧!在/etc/passwd当中以“:”分隔来作为字段的分隔,该文件第一个字段为账号,第三个字段为UID。我们需要查询的是UID小于10的数据,并只列出账号和UID字段:

    1. 先来看看/etc/passwd的所有内容:
    [root@iZxvryruh5alhlZ ~]# cat /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    bin:x:1:1:bin:/bin:/sbin/nologin
    daemon:x:2:2:daemon:/sbin:/sbin/nologin
    adm:x:3:4:adm:/var/adm:/sbin/nologin
    lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
    sync:x:5:0:sync:/sbin:/bin/sync
    shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
    halt:x:7:0:halt:/sbin:/sbin/halt
    mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
    operator:x:11:0:operator:/root:/sbin/nologin
    games:x:12:100:games:/usr/games:/sbin/nologin
    ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
    nobody:x:99:99:Nobody:/:/sbin/nologin
    systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
    dbus:x:81:81:System message bus:/:/sbin/nologin
    polkitd:x:999:997:User for polkitd:/:/sbin/nologin
    postfix:x:89:89::/var/spool/postfix:/sbin/nologin
    chrony:x:998:996::/var/lib/chrony:/sbin/nologin
    sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
    ntp:x:38:38::/etc/ntp:/sbin/nologin
    tcpdump:x:72:72::/:/sbin/nologin
    nscd:x:28:28:NSCD Daemon:/:/sbin/nologin
    mysql:x:1000:1000::/home/mysql:/bin/bash
    
    1. 列出UID小于10的数据,并且只列出账号和UID字段:
    [root@iZxvryruh5alhlZ ~]# cat /etc/passwd | awk '{FS=":"} $3 < 10 {print $1 "\t" $3}'
    root:x:0:0:root:/root:/bin/bash
    bin     1
    daemon  2
    adm     3
    lp      4
    sync    5
    shutdown        6
    halt    7
    mail    8
    

    细心的人会发现第一行数据没有发生变化,这是为什么呢?这是因为,读第一行的时候默认还是以空格分隔的,虽然我们定义了FS=":",但也只能从第二行生效,怎么办呢?我们需要预先设置变量,利用BEGIN这个关键字,这样做:

    [root@iZxvryruh5alhlZ ~]# cat /etc/passwd | awk 'BEGIN {FS=":"} $3 < 10 {print $1 "\t" $3}'
    root    0
    bin     1
    daemon  2
    adm     3
    lp      4
    sync    5
    shutdown        6
    halt    7
    mail    8
    

    五、总结

    awk可以帮我们完成行数据的处理,条件判断,基本运算等。这里带大家简单介绍了一下,大家如果感兴趣可以了解一下awk更高级的用法。

    相关文章

      网友评论

          本文标题:linux常用工具—awk

          本文链接:https://www.haomeiwen.com/subject/tymvdftx.html