awk | 学习(二)

作者: 溪溪溪溪溪川 | 来源:发表于2019-03-30 20:31 被阅读26次

    awk正则

    运算符 功能 示例 描述
    ^ 行首定位符 /^root/ 匹配所有已root开头的行
    $ 行尾定位符 /root$/ 匹配所有已root结尾的行
    . 匹配任意单个字符 /r..t/ 匹配r,然后任意两个字符,再以t结尾
    * 匹配0个或多个前导字符 /a*ool/ 匹配0个或者多个a之后紧跟着ool的行,比如ool,aaool等
    + 匹配1个或者多个前导字符 /a+b/ 匹配一个或多个a+b的行,比如ab,aab等
    匹配0个或多个前导字符 a?b/ 匹配b或者ab行
    [] 匹配指定字符组内的任意一个字符 ^[abc] 匹配以字母a或b或c开头的行
    [^] 匹配不在指定字符组内的任意一个字符 /[abc/ 匹配不以字母a或b或c开头的行
    (..) 子表达字符 /(rool)+/ 表示一个或者多个rool组合,当有一些字符需要组合时,使用括号
    | 或者的意思 /(root)|B/ 匹配root或者B的行
    \ 转义字符 /a\/\// 匹配a//
    ~,!~ 匹配,不匹配的条件语句 $1~/root/ 匹配第一个字段包含root的所有字符
    x{m} 重复字符x,m次 /root{2}/ 注意:root加括号和不加括号的区别,x可以表示字符串也可以只是一个字符,这里表示roott
    x{m,} 重复字符x,至少m次 /root{2,}/ 表示rootroot
    x{m,n} 重复字符x,至少m次 ,不多于n次 /root{2,3} 匹配2~3个root的行

    pattern

    1.正则表达模式 / /

    pengzw@super-server:~$ cat test2.txt
    A   B   C
    Hello   word!
    Write   a   word!
    I   love    dog!
    Good    good    study!
    

    精确查询

    pengzw@super-server:~$ awk '/word/{print $0}' test2.txt #匹配word的行
    Hello   word!
    Write   a   word!
    

    模糊查询

    pengzw@super-server:~$ awk '/o.*/{print $0}' test2.txt #匹配所有含有0的行,包括一个或多个o
    Hello   word!
    Write   a   word!
    I   love    dog!
    Good    good    study!
    

    2.行范围模式

    对行进行操作,用到内置变量。

    内置变量
    变量 描述
    $n 当前记录的第n个字段,字段间由FS分隔,$n表示第n个域
    $0 完整的输入记录,$0则表示所有域
    ARGC 命令行参数的数目
    ARGIND 命令行中当前文件的位置(从0开始算)
    ARGV 包含命令行参数的数组
    CONVFMT 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
    ERRNO 最后一个系统错误的描述
    FIELDWIDTHS 字段宽度列表(用空格键分隔)
    FILENAME 当前文件名
    FNR 各文件分别计数的行号
    FS 字段分隔符(默认是任何空格)
    IGNORECASE 如果为真,则进行忽略大小写的匹配
    NF 一条记录的字段的数目
    NR 已经读出的记录数,就是行号,从1开始
    OFMT 数字的输出格式(默认值是%.6g)
    OFS 输出记录分隔符(输出换行符),输出时用指定的符号代替换行符
    ORS 输出记录分隔符(默认值是一个换行符)
    RLENGTH 由match函数所匹配的字符串的长度
    RS 记录分隔符(默认是一个换行符)
    RSTART 由match函数所匹配的字符串的第一个位置
    SUBSEP 数组下标分隔符(默认值是/034)
    内置变量.jpg

    示例:

    取拟南芥gff3文件的前十行为test.gff
    == 字符双引号

    pengzw@super-server:~$ cat test.gff
    ##gff-version 3
    ##annot-version TAIR10
    Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
    Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=
    Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G0101
    
    pengzw@super-server:~$ awk '$3 =="gene" {print $0 }' test.gff  #将第三列为gene的行输出到屏幕上
    Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
    

    打印两列 $4"\t"$5,需要制定分割符如"\t"

    pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $0 }' test.gff 
    Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
    
    pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $4$5 }' test.gff 
    36313759
    
    pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $4"\t"$5 }' test.gff 
    3631    3759
    

    打印1到4行的内容

    pengzw@super-server:~$ awk 'NR>=1 && NR<=4 {print $0}' test.gff
    ##gff-version 3
    ##annot-version TAIR10
    Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
    Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10
    

    两个正则/gff/,/gene/ {print $0},注意:正则1和正则2,都以第一次匹配到的行为准。

    pengzw@super-server:~$ awk '/gff/,/gene/ {print $0}' test.gff
    ##gff-version 3
    ##annot-version TAIR10
    Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
    

    FS 设置成";"
    RS 记录分隔符变量
    OFS 输出字段分隔符
    ORS 输出记录分隔符
    多个输出可以指定相同的分割符号 print ,分割

    pengzw@super-server:~$ awk 'BEGIN{FS=";";RS="\n";OFS="#"}{print $1,$2,$3,$4}' at.gff
    ##gff-version 3###
    ##annot-version TAIR10###
    Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10#Name=AT1G01010##
    Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10#Name=AT1G01010.1#pacid=19656964#longest=1
    Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
    Chr1    phytozomev10    CDS 3760    3913    .   +   0   ID=AT1G01010.1.TAIR10.CDS.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
    Chr1    phytozomev10    CDS 3996    4276    .   +   2   ID=AT1G01010.1.TAIR10.CDS.2#Parent=AT1G01010.1.TAIR10#pacid=19656964#
    Chr1    phytozomev10    CDS 4486    4605    .   +   0   ID=AT1G01010.1.TAIR10.CDS.3#Parent=AT1G01010.1.TAIR10#pacid=19656964#
    Chr1    phytozomev10    CDS 4706    5095    .   +   0   ID=AT1G01010.1.TAIR10.CDS.4#Parent=AT1G01010.1.TAIR10#pacid=19656964#
    Chr1    phytozomev10    CDS 5174    5326    .   +   0   ID=AT1G01010.1.TAIR10.CDS.5#Parent=AT1G01010.1.TAIR10#pacid=19656964#
    

    3.BGDIN和END模式

    BEGIN是在开始读取一个文件之前进行的操作,其后面的代码只会运行一次
    END 指令和 BEGIN 正好相反,在 awk 读取并且处理完文件的所有内容之后,才会执行 END 后面的代码

    pengzw@super-server:~$ cat test.gff
    A   B   C   D   E   F   G   H   I
    Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
    Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10
    Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .    ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
    pengzw@super-server:~$ awk 'BEGIN{print "C D"} NR>=2 {print $3"\t"$4}' test.gff 
    C D
    gene    3631
    mRNA    3631
    five_prime_UTR  3631
    pengzw@super-server:~$ awk 'BEGIN{print "C D"} END{print"end"} NR>=2 {print $3"\t"$4}' test.gff
    C D
    gene    3631
    mRNA    3631
    five_prime_UTR  3631
    end
    

    4.action

    awk的大括号里面的代码不仅仅只有打印的功能,还可以进行常规的算数运算
    + - 运算符

    pengzw@super-server:~$ awk 'BEGIN{print "C D E"} END{print"end"} NR>=2 {print $3,$4,$5,$5-$4}' test.gff
    C D E
    gene 3631 5899 2268
    mRNA 3631 5899 2268
    five_prime_UTR 3631 3759 128
    end
    

    action中使用条件语句if,两个中括号,一个括号

    pengzw@super-server:~$ awk '{if($3=="gene"){print $3,$4,$5,$5-$4}}' test.gff
    gene 3631 5899 2268
    

    相关文章

      网友评论

        本文标题:awk | 学习(二)

        本文链接:https://www.haomeiwen.com/subject/ympsbqtx.html