0 引言
awk是一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。
awk工作原理:
#awk -F : '{print $1,$3}' /etc/passwd
(1) awk使用一行作为输入,并将这一行赋给内部变量$0,每一行也可称为一个记录,以换行符结束
(2)然后行被:(默认是空格或制表符)分解成字段(或域),每个字段存储在已编号的变量中,从$1开始,最多可达100个字段
(3)awk如何知道用空格分隔字段的呢?因为内部有个变量FS来确定字段分隔符。初始时FS赋值为空格
(4)awk打印字段时候,将以设置的方法使用print函数打印,awk在打印字段间加上空格,因为$1,$3之间有一个逗号,逗号比较特殊,它映射为另一个内部变量,成为输出 字段分隔符OFS,OFS默认为空格。(所以输出不加指明的话,默认都是以空格输出)。如果需要自己指定输出分隔符,需要“”(必须双引号)引起来。
(5)awk输出之后,将从文件中获取另一行,并将其存储在$0中,覆盖原来的内容,然后将新的字符串分割成字段进行处理,该过程将持续到所有行处理完毕。
1 awk的基本用法
awk [选项参数] ‘pattern1{action1} pattern2{action2}...’ filename
pattern:表示AWK在数据中查找的内容,就是匹配模式
action:在找到匹配内容时所执行的一系列命令。注意是放在{}中的
2 选项参数说明
![](https://img.haomeiwen.com/i20945954/a18c1e2e29f0c591.png)
3 案例操作
数据准备:
cat /etc/passwd >/home/centos/dan_test/password
(1)搜索passwd文件以root关键字开头的所有行,并输出该行的第7列。
[root@bigdata3 dan_test]# grep '^root' password | awk -F : '{print $7}'
![](https://img.haomeiwen.com/i20945954/d1ef731b2dd6c77e.png)
[root@bigdata3 dan_test]# awk -F : '/^root/ {print $7}' password
![](https://img.haomeiwen.com/i20945954/db8a9357d2e541d8.png)
(2)搜索passwd文件以root关键字开头的所有行,并输出该行的第1列和第7列,中间以“,”号分割。
[root@bigdata3 dan_test]# awk -F : '/^root/ {print $7","$1}' password
![](https://img.haomeiwen.com/i20945954/1f43867270fd0b3a.png)
(3)只显示/etc/passwd的第一列和第七列,以逗号分割,且在所有行前面添加列名user,shell在最后一行添加"dandan ge,/ni/zuishuai"。
[root@bigdata3 dan_test]# awk -F : 'BEGIN{print "user,shell"} {print $1","$7} END{print "dandan ge,/ni/zuishuai"}' password
注意:BEGIN ,END理解为两个关键字
![](https://img.haomeiwen.com/i20945954/2a65920e84c635ee.png)
(4)将password文件中的用户id增加数值1并输出
cat password
![](https://img.haomeiwen.com/i20945954/4a85571ca4e96f31.png)
用户id为第三列
[root@bigdata3 dan_test]# awk -v i=1 -F : '{print $3 + i}' password
使用-v定义变量,注意引用时候该定义的变量前面无$符号。
![](https://img.haomeiwen.com/i20945954/b15effa3227cf01d.png)
4 awk的内置变量
![](https://img.haomeiwen.com/i20945954/3ed4baa591808705.png)
案例操作:
(1)统计password文件名,每行的行号,每行的列数
[root@bigdata3 dan_test]# awk -F: '{print "filename:" FILENAME ", linenumber:" NR ",columns:" NF}' password
![](https://img.haomeiwen.com/i20945954/41f94ca820728eb6.png)
(2)切割IP
查看数据的格式:
[root@bigdata3 dan_test]# ifconfig eth0
![](https://img.haomeiwen.com/i20945954/4d423c52373dfa2c.png)
[root@bigdata3 dan_test]# ifconfig eth0 | sed -n '2p' | awk '{print $2}'
注意:awk默认是空格切割,因此这里没有指定切割的分隔符
sed -n '2p':表示取第二行数据
![](https://img.haomeiwen.com/i20945954/efb797ea4b03933f.png)
(3)查询sed.txt中空行所在的行号
[root@bigdata3 dan_test]# awk '/^$/{print NR}' sed.txt
![](https://img.haomeiwen.com/i20945954/dcece17e9f149d5c.png)
(4)有文件chengji.txt内容如下:
张三 40
李四 50
王五 60
使用Linux命令计算第二列的和并输出
[root@bigdata3 dan_test]# cat chengji.txt | awk '{sum=$2+sum} END{print sum}'
![](https://img.haomeiwen.com/i20945954/a93c7cf2fd2732b4.png)
(5)输出分割符以逗号分割
[root@bigdata3 dan_test]# cat password | awk -F : '{print $1","$3}'
![](https://img.haomeiwen.com/i20945954/f4aeb2f27671adaa.png)
默认:
[root@bigdata3 dan_test]# cat password | awk -F : '{print $1,$3}'
![](https://img.haomeiwen.com/i20945954/d4c38425c6dff9d1.png)
截取整数
[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n1 | awk '{print +$0}'
![](https://img.haomeiwen.com/i20945954/6500ab1b0ab1d971.png)
xargs -n1的理解通过下面的例子理解:
[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n1
![](https://img.haomeiwen.com/i20945954/8dde09650335da59.png)
[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n2
![](https://img.haomeiwen.com/i20945954/bb2a3db6525616d4.png)
[root@bigdata3 dan_test]# echo "123abc abc123 123abcdef" |xargs -n3
![](https://img.haomeiwen.com/i20945954/75f8255c0642e2ff.png)
总结:xargs的-n参数
(1)-n num 后面加次数,表示命令在执行的时候一次用的argument的个数,默认是用所有的。其实就是表示一次输入(传递)的参数个数。
(2)-n参数可以将多行变一行,可以将单行变多行,有点类似hive中的udaf及udtf函数。
(3)awk '{print +$0}'只显示字符串最前面的数字。
[root@bigdata3 dan_test]# echo "1.23a123 a123a1bc abc123 123abcdef" |xargs -n1 | awk '{print +$0}'
1.23
0
0
123
注意与int()函数的区别:
[root@bigdata3 dan_test]# echo "1.23a123 a123a1bc abc123 123abcdef" |xargs -n1 | awk '{print int($0)}'
1
0
0
123
网友评论