美文网首页
grep 提取匹配行及符合匹配条件的前后行

grep 提取匹配行及符合匹配条件的前后行

作者: 悟空Oo | 来源:发表于2020-02-21 10:42 被阅读0次

    我们都知道fastaq文件都是四行一组,第一行为header,第二行为序列,第三行为一个'+',第四行为质量值。

    wukong@wukong-System-Product-Name:~/share/script$ wc -l HRBC41.fq
    2676756 HRBC41.fq
    wukong@wukong-System-Product-Name:~/share/script$ less -S HRBC41.fq
    @1CWV8:00526:07327
    TCTGTACGGTGACAAGGCGTACGTAACTAAAGGATCTCTAGCTGTGCAGGATGCAAACTTCTCGGGGTCAGTGACTGCCTCCTGCCCCTGTTGGTCCCTAGGCAGTGGGGGCAGAAGCTCCCAGCTGACCTGTTTCTCTGGGATGAGAGGTAGGAGAGACATTTAAGGTTCCTT
    +
    9>=<=>>>9===<?9>8=<=<==<<9@<<;4:5;<A<><;;<<=@A<<<6:55557*7<7==>=>?7==>>>====<=7<<6;;;??06586;6;==8===9=>=>=>>>3<<<=5;<===7=<<><=@9<<<@8<<;888+56=:;:<8===6<;?<::888076:6;4:2::
    @1CWV8:05195:10636
    TCTGTACGGTGACAAGGCGTACGTAACTACGAACTTGACACAGTACAGCCCAGGAAATGCCTTCCTGCCCTCTCCTCATCCCATCCCTGGGCAGGGGACATGCAACTGTCTACAAGGTACCAAGTTCCAGGTGGACAAAGTCATACGTA
    +
    9=<<;<<<7<<<<<5<9<>>>B>>?9>>B?<<6;<5:88<>=>>===<<<8<=9=<5<::5:8>8<<<<4<<=<9>>>>==6<<<<6=>@5<<<<<4<<>?=<<7<><==A>?B9>9==>9=8<<8<7<=9<<7<=>>8==<====?==
    @1CWV8:02551:06637
    TCTGTACGGTGACAAGGCGTACGTAACTCCAAAGCAAACTCAGTCCCCCTTATCGGAAATGAACAGCATTTGAAGCTTCACCAGACAGACCAGACAGCTTAGCCCTCGTGTTGTGCCATGTGGGTTGTTCTCTGAGAGGTAGGAGAGACATTTAAGGTTCCTTTCATACGTA
    +
    9=<<<<==9=<==>8=>>>>=;;;?9=@=6;<7;<=A6<>B=<<=?>>3=9====5<<4<<=7<<<<=<=7>>9===8===9==<<<;;:5::::778?<>>=E8@AA?@>9==<<7<888=>8>9>>9>@>>>===>9===7<<:::<<=<7<18096<088.8<<<;<<=
    @1CWV8:08552:01560
    TCTGTACGGTGACAAGGCGTACGTAACTCAGCAAGAACGTCAGTACGATTAAGCTCTAAACACTTGTTAGGAAGCAGGACTGGCATTTGAAACAAACAGCTCTTTTCCCACAGGTCGGATGCCCTCACAGAATTGAGATTATGTACGTAAAACACCAGGTGCCTAACCCGGCAC
    +
    7<899<<<8<>;A<9><A<<<>9987;<8;<<<5<=9<=<<=<<=>9887<7;;877;:3:<==7;;4::5;7=<<<8<:::9==<=6::<777707765<<<<<4<=8;;;<7<::4:;:<<7<<<<>==9@9<>=>>9>=>@<<>>>>=7===88808::5;;3;;4;6;;<
    ...
    

    现在要求将一个fastaq文件中含有序列‘TCTGTACGGTGACAA’的信息提取出来,包括header、序列、+以及质量值,我们可以使用grep命令提取匹配行及符合匹配条件的前后行。

    wukong@wukong-System-Product-Name:~/share/script$ grep -A 2 -B 1 TCTGTACGGTGACAA HRBC41.fq > TCTGTACGGTGACAA.fq
    wukong@wukong-System-Product-Name:~/share/script$ ls -hl TCTGTACGGTGACAA.fq
    -rw-rw-r-- 1 wukong wukong 201M 2月  21 10:29 TCTGTACGGTGACAA.fq
    wukong@wukong-System-Product-Name:~/share/script$ wc -l TCTGTACGGTGACAA.fq
    2630766 TCTGTACGGTGACAA.fq
    wukong@wukong-System-Product-Name:~/share/script$ head TCTGTACGGTGACAA.fq
    @1CWV8:00526:07327
    TCTGTACGGTGACAAGGCGTACGTAACTAAAGGATCTCTAGCTGTGCAGGATGCAAACTTCTCGGGGTCAGTGACTGCCTCCTGCCCCTGTTGGTCCCTAGGCAGTGGGGGCAGAAGCTCCCAGCTGACCTGTTTCTCTGGGATGAGAGGTAGGAGAGACATTTAAGGTTCCTTTCATACGTA
    +
    9>=<=>>>9===<?9>8=<=<==<<9@<<;4:5;<A<><;;<<=@A<<<6:55557*7<7==>=>?7==>>>====<=7<<6;;;??06586;6;==8===9=>=>=>>>3<<<=5;<===7=<<><=@9<<<@8<<;888+56=:;:<8===6<;?<::888076:6;4:2::1:;;:777<
    @1CWV8:05195:10636
    TCTGTACGGTGACAAGGCGTACGTAACTACGAACTTGACACAGTACAGCCCAGGAAATGCCTTCCTGCCCTCTCCTCATCCCATCCCTGGGCAGGGGACATGCAACTGTCTACAAGGTACCAAGTTCCAGGTGGACAAAGTCATACGTA
    +
    9=<<;<<<7<<<<<5<9<>>>B>>?9>>B?<<6;<5:88<>=>>===<<<8<=9=<5<::5:8>8<<<<4<<=<9>>>>==6<<<<6=>@5<<<<<4<<>?=<<7<><==A>?B9>9==>9=8<<8<7<=9<<7<=>>8==<====?==
    @1CWV8:02551:06637
    TCTGTACGGTGACAAGGCGTACGTAACTCCAAAGCAAACTCAGTCCCCCTTATCGGAAATGAACAGCATTTGAAGCTTCACCAGACAGACCAGACAGCTTAGCCCTCGTGTTGTGCCATGTGGGTTGTTCTCTGAGAGGTAGGAGAGACATTTAAGGTTCCTTTCATACGTA
    

    相关文章

      网友评论

          本文标题:grep 提取匹配行及符合匹配条件的前后行

          本文链接:https://www.haomeiwen.com/subject/diwqqhtx.html