美文网首页
利用awk自身变量NR和FNR来处理多个文件

利用awk自身变量NR和FNR来处理多个文件

作者: ibadplum | 来源:发表于2017-07-11 22:50 被阅读0次

    原文:http://521cto.blog.51cto.com/950229/945683

    利用awk自身变量NR和FNR来处理多个文件2012年 07月 27日 星期五 22:31:10 CST这里不再介绍awk的基本用法,如果连基本用法都不知道的同学先提前学习下基本用法,再看下面的介绍,本文简单介绍了如何使用数组,以及对awk自身变量NR和FNR的意义和区别进行介绍,并以实例的方式展示。数组也是变量,但是数组可以保存一组值或者一组元素,每个元素可以通过下标访问。awk的数组跟其他程序设计语言的数组有所不同:1、不需要正式定义,一个数组在使用时被定义;2、数组元素的初始值为0或空字符串,除非他们被显示的指定初始化;3、数组可以自动扩展;4、下标可以使字符串。
    NR:表示awk开始执行程序后所读取的数据行数。FNR:awk当前读取的记录数,其变量值小于等于NR(比如当读取第二个文件时,FNR是从0开始重新计数,而NR不会)。
    NR==FNR:用于在读取两个或两个以上的文件时,判断是不是在读取第一个文件。
    awk处理多个文件的基本语法是:awk -F分隔符 'BEGIN { 初始化 } { 循环执行部分 } END { 结束处理 }' file_list1 file_list2其中BEGIN和END可以省略,-F也可以使用默认,循环执行部分,是按行对文件进行处理的。
    下面通过两个实例来理解NR和FNR:
    1, 对于单个文件NR 和FNR 的 输出结果一样的 :文件内容如下:

    [root@tech tmp]# cat a
    a b c d
    a b d c
    a c b d
    [root@tech tmp]# cat b
    aa bb cc dd
    aa bb dd cc
    aa cc bb dd

    对单个文件处理:
    [root@tech tmp]# awk '{ print NR,$0 }' a
    1 a b c d
    2 a b d c
    3 a c b d
    [root@tech tmp]# awk '{ print FNR,$0 }' a
    1 a b c d
    2 a b d c
    3 a c b d

    2, 但是对于多个文件,NR和FNR代表的含义和区别:
    [root@tech tmp]# awk '{ print NR,$0 }' a b
    1 a b c d
    2 a b d c
    3 a c b d
    4 aa bb cc dd
    5 aa bb dd cc
    6 aa cc bb dd
    [root@tech tmp]# awk '{ print FNR,$0 }' a b
    1 a b c d
    2 a b d c
    3 a c b d
    1 aa bb cc dd
    2 aa bb dd cc
    3 aa cc bb dd

    再看一个例子关于NR和FNR的典型应用:
    现在有两个文件格式如下:
    [root@tech tmp]# cat account
    李四|000002
    张三|000001
    王五|000003
    赵六|000004
    [root@tech tmp]# cat cdr
    000001|10
    000001|20
    000002|30
    000002|15
    000002|45
    000003|40
    000003|25
    000004|60

    执行如下代码

    张三|000001|10
    张三|000001|20
    李四|000002|30
    李四|000002|15
    李四|000002|45
    王五|000003|40
    王五|000003|25
    赵六|000004|60
    执行如下代码
    [root@tech tmp]# awk -F | 'NR==FNR { a[$2]=$0; next } { print a[$1]"|"$2 }' account cdr
    张三|000001|10
    张三|000001|20
    李四|000002|30
    李四|000002|15
    李四|000002|45
    王五|000003|40
    王五|000003|25
    赵六|000004|60

    注释:
    当NR=FNR为真时,判断当前读入的是第一个文件account,然后使用{ a[$2]=$0; next }循环将account文件的每行记录都存入数组a,并使用$2第2个字段作为下标引用.
    当NR=FNR为假时,判断当前读入了第二个文件cdr,然后跳过{a[$2]=$0;next},对第二个文件cdr的每一行都无条件执行{ print a[$1]"|"$2 },此时变量$1为第二个文件的第一个字段,与读入第一个文件时,采用第一个文件第二个字段$2为数组下标相同.因此可以在此使用a[$1]引用数组。
    再比如:file11 billchen mp2 allenquan zhanghu3 collenswang jieru
    file21 shenzhen guangdong2 jinan shandong3 nanchang jiangxi
    我们用awk来处理文件:
    1、先看下面两个例子:[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp
    当NR==FNR时,执行a[$2]=$3,以$2为下标,以$3为值,循环执行。
    注意区别:将上面例子$2改为NR[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file21 mp2 zhanghu3 jieru
    当NR==FNR时,执行a[NR]=$3,以NR为下标,以$3为值,循环执行。
    2、再看下面两个例子:[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2nanchang jiangxishenzhen guangdongjinan shandong
    当NR!=FNR时,执行a[$2]=$3,以$2为下标,以$3为值,循环执行。
    注意区别:将上面例子$2改为NR[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file24 guangdong5 shandong6 jiangxi当NR!=FNR时,执行a[NR]=$3,以NR为下标,以$3为值,循环执行。
    3、再将它们组合起来进行多文件处理:[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp--------nanchang jiangxishenzhen guangdongjinan shandong
    当NR==FNR时,执行a[$2]=$3,以$2为下标,以$3为值,当NR!=FNR时,执行b[$2]=$3,循环执行。
    注意区别:将上面例子$2改为NR[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file21 mp2 zhanghu3 jieru--------4 guangdong5 shandong6 jiangxi当NR==FNR时,执行a[NR]=$3,以NR为下标,以$3为值,当NR!=FNR时,执行b[NR]=$3,循环执行。
    下面是我将命令单独摘出供大家对比:awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2
    注:awk把一串连续的空格符合制表符(即空白串)当做一个默认分隔符可以去掉: -F' ' ,上述命令可以简写如下:awk 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2awk 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2awk 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2上面简写命令读者可以运行测试,结果跟原来的是一样的。
    以下是我的详细运行结果,仔细对比即可找到规律:[root@tech tmp]# more file1 file2::::::::::::::file1::::::::::::::1 billchen mp2 allenquan zhanghu3 collenswang jieru::::::::::::::file2::::::::::::::1 shenzhen guangdong2 jinan shandong3 nanchang jiangxi[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file21 mp2 zhanghu3 jieru[root@tech tmp]# awk -F' ' 'NR!=FNR { a[$2]=$3 } END { for(i in a) { print i,a[i] } }' file1 file2nanchang jiangxishenzhen guangdongjinan shandong[root@tech tmp]# awk -F' ' 'NR!=FNR { a[NR]=$3 } END { for(i in a) { print i,a[i] } }' file1 file24 guangdong5 shandong6 jiangxi[root@tech tmp]# awk -F' ' 'NR==FNR { a[$2]=$3 } NR!=FNR { b[$2]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file2collenswang jieruallenquan zhanghubillchen mp--------nanchang jiangxishenzhen guangdongjinan shandong[root@tech tmp]# awk -F' ' 'NR==FNR { a[NR]=$3 } NR!=FNR { b[NR]=$3 } END { for(i in a) { print i,a[i] } print "--------"; for(j in b) { print j,b[j] } }' file1 file21 mp2 zhanghu3 jieru--------4 guangdong5 shandong6 jiangxi感谢各位前辈的指点,以及对awk相关知识的贡献,同时谢谢以下参考页面的原作者。本地同名文件以附件的形式上传了,读者可以下载参考。
    参考页面:1、http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201222771550599/2、http://www.linuxidc.com/Linux/2012-05/61174.htm

    相关文章

      网友评论

          本文标题:利用awk自身变量NR和FNR来处理多个文件

          本文链接:https://www.haomeiwen.com/subject/hflvhxtx.html