美文网首页其他开发工具Linux学习空间
Linux Shell:awk文本处理工具,Linux的SQL神

Linux Shell:awk文本处理工具,Linux的SQL神

作者: xiaogp | 来源:发表于2021-12-14 14:40 被阅读0次

    摘要:LinuxShellawk

    awk简介

    awk是一个强大的文本分析工具,尤其是对linux中的结构化二维表数据可以实现类似SQL的检索,统计,替换功能。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理,简单而言awk等于遍历正则逻辑判断操作的shell代码集合

    • 功能支持:文本匹配文本转化文本统计分析
    • 操作对象:文件或者标准输入
    • 工作方式:逐行扫描文件,从第一行到最后一行,执行匹配和操作逻辑

    awk语法

    (1)awk基本语法快速开始
    awk的基本语法如下
    • awk 'pattern' filename
    • awk '{action}' filename
    • awk 'pattern {action}' filename

    其中pattern代表匹配条件,action代表匹配到之后的操作,filename代表文件,其中filename(或者标准输入输出)必不可少,pattern和action二者必须有其中一个,否则无法运行。一共支持三种方式,表明awk支持文件匹配(结合正则或者关系运算匹配),文件操作和对匹配到的内容做操作。除了对文件操作之外,一种常用的是用在标准输入输出上

    echo 'something' | awk '{action}'
    

    下面分别对4中方式进行测试
    1.只有匹配条件
    如果只有匹配条件则打印出所有符合条件的整行,匹配方式可以为正则匹配,在正则表达式前后加上/pattern/

    awk '/test/{print $0}' /etc/group
    docker:x:999:test
    test:x:1001:
    

    另一种是条件过滤匹配,例如精确匹配第一个元素为docker的行,精确匹配需要对匹配内容加双引号,不需要/pattern/

    awk 'BEGIN{FS=":"}$1=="docker"{print $0}' /etc/group
    docker:x:999,test
    

    其中awk整体匹配+操作语句使用单引号括起来,语句内部有字符需要精确匹配使用双引号括起来,$1是被分割后每行的第一个元素,索引从1开始,$0代表整行

    2.只有操作模式
    这种不对行做筛选直接操作,操作的模式最常用的是调用打印函数print,比如打印分割之后的第一个元素

    awk 'BEGIN{FS=":"}{print $1}' /etc/group
    root
    daemon
    bin
    sys
    

    如果想打印多个元素可以写多个$n,例如解析一个日志,以空格分割后取整个字段字符串

    awk '/label'\'': 1/{print $6 $7 $8 $9 $10 $11 $12 $13}' details.log
    {'ent_name':'海航科技股份有限公司','bad_date':'2020-06-01','predict_date':'2020-03-03','label':1}
    {'ent_name':'抚顺特殊钢股份有限公司','bad_date':'2018-12-01','predict_date':'2018-09-02','label':1}
    {'ent_name':'东旭光电科技股份有限公司','bad_date':'2020-02-01','predict_date':'2019-11-03','label':1}
    

    另一种输出连续列的方法是调用C语法循环语句,使用printf打印结尾不带换行符直接追加打印

    awk '/label'\'': 1/{for (i=6;i<=13;i++)printf $i" ";printf "\n"}' details.log
    

    3.匹配条件+操作模式
    两者结合先筛选出符合的行再做统一操作,例如筛选包含docker的行输出第一个元素

    awk 'BEGIN{FS=":"}/docker/{print $1}' /etc/group
    docker
    

    4.对标准输入进行操作
    可以对标准输出做awk操作,产生标准输出的方式有catecho等,以及可以在控制台输出的工具,例如
    使用cat的输出

    cat /etc/group |awk 'BEGIN{FS=":"}{print $1}'
    root
    daemon
    bin
    sys
    adm
    

    使用echo的输出

    echo "1 2 3 4" |awk '{print $2}'
    2
    

    使用其他命令到控制台的输出,比如使用/usr/local/bin/下的自定义工具getip输出IP

    getip |awk 'BEGIN{FS="."}{print $1}'
    192
    

    比如docker images命令的输出筛选镜像

    docker images | awk '/mysql/'
    mysql                                        5.7                            09361feeb475   5 months ago    447MB
    mysql                                        latest                         5c62e459e087   5 months ago    556MB
    

    awk命令参数

    awk命名可以在上面的基础上增加可配参数,常用参数如下

    命令选项 描述
    -F 指定文本分隔符,默认是Tab或者空格
    -v 在复杂逻辑中设置变量
    ' ' 引用代码块
    -f -f或者-file,从脚本文件中读取awk命令
    BEGIN 初始化代码块,在每一行处理之前运行,设置处理逻辑的全全局变量
    END 结尾代码块,在每一行处理完之后再执行,输出最终的计算结果
    {} 代码块,编写处理逻辑,BEGIN和END后面也需要{}

    对其中几个进行测试,-F文本问个符号

    echo "1,2,3,4" |awk -F "," '{print $2}' 
    2
    
    awk -F ":" '{print $1}' /etc/group
    root
    daemon
    bin
    sys
    

    BEGIN用于在awk匹配逻辑之前设置全局变量,必须大写例如设置内置分隔符

    awk  'BEGIN{FS=":"}{print $1}' /etc/group
    

    也可以设置自定义变量,变量的命名由用户自定义,如果有多个变量中间用分号;隔开,在引用的时候action中直接引用变量名(不加$),如果是纯串不需要引用用双引号括起来

    awk 'BEGIN{FS=":";v1="用户组是"}{print v1$1}' /etc/group
    用户组是mysql
    用户组是docker
    用户组是test
    

    -v设置awk全局变量,可以在action中引用设置的变量,效果和在BEGIN中设置一样

    awk  -v v1="用户组是:" -v v2=" gid是" 'BEGIN{FS=":"}{print v1$1v2$2}' /etc/group
    用户组是:mysql gid是x
    用户组是:docker gid是x
    用户组是:test gid是x
    

    END用于在遍历完每一行后进行一个计算操作,最终得出全部计算结果,例如统计总共遍历了多少行

    awk 'BEGIN{FS=":";cnt=0}{cnt+=1}END{print cnt}' /etc/group
    71
    

    这个和cat /etc/group |wc -l结果一致,进一步可以将计算结果写入文件

    awk 'BEGIN{FS=":";cnt=0}{cnt+=1}END{print cnt}' /etc/group > cnt.txt
    
    (2)awk内置变量

    对于awk来说变量又分为内置变量自定义变量,awk中包含很多内置变量,比如说-F命令默认的分隔符是Tab或者空格,实际上就是awk的内部变量FS来控制的,内置变量的目的是在awk逻辑中进行修改和引用,常用的内置变量如下

    变量名 描述
    $0 当前记录,整个一行记录
    $1~$n 当前记录被分隔符分割之后的元素,根据索引位置排
    FS 字段分隔符 默认是空格
    NF 字段个数,就是有多少列
    NR 行号,从1开始
    RS 记录之间的分隔符,默认是换行符
    FILENAME 当前输入文件的名字
    IGNORECASE 如果为真,则进行忽略大小写的匹配

    刚才在BEGIN中已经测试使用了内置变量FS,以及$0和$1等,现在测试以下字段个数,行号,以及忽略大小写
    NF可能是num of feature

    echo '1 2 3 4' |awk '{print NF}'
    4
    

    NR显示行号,比如选取70行以上的

    awk 'BEGIN{FS=":"}NR>70{print $0}' /etc/group
    test:x:1001:
    

    复杂一点取偶数行,直接拿到NR计算即可,这个等于判定符号对整数和字符通吃

    awk 'BEGIN{FS=":"}NR%2==0{print $0}' /etc/group
    

    IGNORECASE忽略大小写,比如用在精确匹配中大写匹配规则可以匹配小写内容

    awk 'BEGIN{FS=":";IGNORECASE=1}$1=="Docker"{print $0}' /etc/group
    docker:x:999:test
    

    具体是将IGNORECASE加入BEGIN中,1是开启,0是关闭,默认关闭

    (3)pattern语法

    pattern部分分为正则表达式和条件过滤,正则举几个例子即可

    正则匹配部分

    ^符号匹配行首,比如查看ls的是文件夹的

    ll |awk /^d/
    drwxr-xr-x  5 root     root           4096 12月  9 17:25 ./
    drwxr-xr-x 62 root root       4096 12月 13 14:36 ../
    drwxr-xr-x  4 root     root           4096 7月  29 18:48 bisai/
    drwxrwxr-x  2 root root       4096 2月  20  2019 docker/
    

    $匹配结尾,比如在echo中使用-e激活换行符,匹配以f结尾的行

    echo -e "dsd\nsdslhf\nssdf\n" |awk '/f$/'
    sdslhf
    ssdf
    

    [ ]匹配字符集,可以完成多个字符集中任何一个字符的匹配,比如匹配以d或者s开头的并且第二个字符是s的结果

    echo -e "dsd\nkdslhf\nssdf\n" |awk '/^[ds]s/'
    dsd
    ssdf
    

    [^ ]排他设置,和字符集匹配相反,只要不在指定的字符集内其他的都算匹配到,比如匹配首字母不是k和s的所有行

    echo -e "dsd\nkdslhf\nssdf\n" |awk '/^[^ks]/'
    dsd
    

    再比如包含匹配,只要行中包含精确匹配的内容,对输出筛选包含do字眼的

    ll |awk /do/
    drwxrwxr-x  2 root root       4096 2月  20  2019 docker/
    -rw-r--r--  1 root     root       43844133 10月  8 06:17 docker-18.06.3-ce.tgz
    -rw-r--r--  1 root     root           1200 10月 14 08:53 docker.services
    

    match函数:macth可以返回指定要匹配内容,类似通用的正则表达式,格式如下

    match($0,/pattern/,a);action
    

    在match函数中最后一个元素定义了一个a数组,使用print输出a的第一个匹配元素a[1],如果是a[0]就是匹配到的行

    ifconfig wlp2s0|grep netmask |awk '{match($0,/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})/,a); print a[1]}'
    192.168.43.59
    

    记录一个转义问题,如果要匹配单引号,语句如下,先\转移再用小括号括起来

    echo ''\''123'\''' |awk '/'\''/'
    '123'
    
    条件过滤部分

    条件过滤部分可以实现单分之和多分支逻辑,语法如下

    awk 'BEGIN{}条件{action}END{}'
    

    例如统计每行第三个字段是工商的行数,相当于SQL的select count... where...

    awk '$3=="工商"{i++}END{print i}' reason_code.txt
    21
    

    其中$3=="工商"是条件放在最前面,{i++}是action初始的变量i为0,最后调用print打印出统计值,在这个基础上再增加一个条件,第四列是高的,相当于select count... where...and...

    awk '$3=="工商"&&$4=="高"{i++}END{print i}' reason_code.txt
    6
    

    使用&&完成条件的交集,同理并集使用||,也可以完成检索展示的工作,例如检索A列等于某值时B列的值

    awk '$3=="工商"{print $2}' reason_code.txt 
    企业经营年限
    法定代表人变更
    企业机构类型
    高层变动
    
    (4)action语法

    action对每一行过滤后的结构进行操作,最简单的就是打印,除此之外可以在这一步完成统计分析的逻辑编写
    awk还可以实现select sum的功能,对一列累加求和

    awk -F "," '{sum+=$2}END{print sum}' pira_label_score.txt 
    1315
    

    使用action可以实现类似SQL group by的功能,分组统计个数,类似于select count(1) group by,比如

    awk '{x[$3]+=1}END{for(i in x){print i,x[i]}}' reason_code.txt 
    财务 5
    税务 1
    工商 21
    

    实现的方式是在action中定义一个关联数组x(字段),然后往里面添加key和+1,在END中再遍历一次即可,如果不使用awk而是写shell定义数组和遍历需要很长一段,如下

    #/bin/bash
    unset x
    declare -A x
    
    while read line
    do
        key=`echo $line |awk -F ' ' '{print $3}'`
        x[$key]=$[${x[$key]}+1]
    done<reason_code.txt
    
    for i in ${!x[@]}
    do
        echo $i,${x[$i]}
    done
    

    在action里面可以加入条件筛选,相当于action也可以包含pattern的功能,比如统计出每行第三个字段是工商的行数,相当于SQL的select count ...where...

    awk '{if($3=="工商")i++}END{print i}' reason_code.txt
    10
    

    再加一个分之判断,统计一下工商和征信,多个判断条件之间要用;分号隔开,如果不用分号需要将条件判断后面的代码加{}代码段

    awk '{if($3=="工商") i++; else if($3=="征信") j++;}END{print i,j}' reason_code.txt
    21 10
    

    同样除了统计刚才这个awk逻辑还可以完成替换打印输出,相当于case when

    awk '{if($3=="工商")print "数据源是工商"; else if($3=="债股")print "数据源是债股"; else print "数据源是其他"}' reason_code.txt
    数据源是其他
    数据源是工商
    数据源是其他
    数据源是其他
    

    也可以实现类似SQL的功能,检索每行第三个元素是工商的第一个字段,太强了,感觉这个非常实用,相当于select ... where...

    awk '{if($3=="工商")print $2}' reason_code.txt 
    企业经营年限
    法定代表人变更
    企业机构类型
    高层变动
    

    再举一个例子,将第二列大于等于9的第一列筛选出来写入一个文件

    awk -F "," '{if($2>=9)print $1}' pira_label_score.txt > awk.txt
    cat awk.txt 
    1000053
    1000088
    1000089
    1000116
    1000205
    1000229
    

    实际上action可以一步到位,将条件和操作全部写在action里面,多条件分之注意在else,else if之前增加分号


    awk常用任务

    获取配置文件中某个key的value,例如有一个config.yml

    cat config.yml 
    mysql_host: 172.17.0.1
    mysql_port: 3306
    mysql_user: xiaogp
    mysql_password: ******
    

    现要从中获取其中的mysql_host

    awk -F ':' '$1=="mysql_host"{gsub(" ","",$0);print $2}' config.yml 
    172.17.0.1
    

    其中gsub用来替换空格,顺序为先调用gsub去除空格,在使用-F进行分割,再判断$1=="mysql_host,因此如果写成-F ': '(冒号空格)就无法分割导致$1=="mysql_host匹配不上为空

    相关文章

      网友评论

        本文标题:Linux Shell:awk文本处理工具,Linux的SQL神

        本文链接:https://www.haomeiwen.com/subject/xctmwltx.html