美文网首页
2018/12/11 作业 fasta和fastq格式文件的sh

2018/12/11 作业 fasta和fastq格式文件的sh

作者: labrador1986 | 来源:发表于2018-12-11 21:02 被阅读0次

    mkdir -p ~/biosoft
    cd ~/biosoft
    wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.3.4.3/bowtie2-2.3.4.3-linux-x86_64.zip
    unzip bowtie2-2.3.4.3-linux-x86_64.zip
    cd ~/biosoft/bowtie2-2.3.4.3-linux-x86_64/example/reads

    1)统计reads_1.fq 文件中共有多少条序列信息

    nl reads_1.fq|  sed -n 2~4p |wc -l
    

    答案 10000

    2)输出所有的reads_1.fq文件中的标识符(即以@开头的那一行)
    方法1

    nl reads_1.fq|sed -n  '/^@/p' 
    nl reads_1.fq|sed -n  '/@*/p' 
    

    不太明白

    grep '^@' reads_1.fq|less -SN |wc -l
    grep '^@' reads_1.fq > 2.txt
    

    方法2

    1. 输出reads_1.fq文件中的 所有序列信息(即每个序列的第二行)

    nl reads_1.fq| sed -n 2~4p > seq.txt
    nl reads_1.fq| sed -n 2~4p

    4)输出以‘+’及其后面的描述信息(即每个序列的第三行)
    grep '^+' reads_1.fq > 4.txt

    方法2

    nl reads_1.fq|  sed -n '/+/p'
    

    5)输出质量值信息(即每个序列的第四行)

    nl reads_1.fq|  sed -n 0~4p
    
    1. 计算reads_1.fq 文件含有N碱基的reads个数
    nl reads_1.fq|  sed -n 2~4p | sed -n /N/p |wc -l
    
    1. 统计文件中reads_1.fq文件里面的序列的碱基总数

    nl reads_1.fq| sed -n 2~4p |-wc

    答案 6429

    8)计算reads_1.fq 所有的reads中N碱基的总数

    nl reads_1.fq| sed -n 2~4p | grep 'N' -c

    9)统计reads_1.fq 中测序碱基质量值恰好为Q20的个数
    ????

    10)统计reads_1.fq 中测序碱基质量值恰好为Q30的个数
    ????

    11)统计reads_1.fq 中所有序列的第一位碱基的ATCGNatcg分布情况
    nl reads_1.fq| sed -n 2~4p | grep '^[ATCGNatcg]' -c

    12)将reads_1.fq 转为reads_1.fa文件(即将fastq转化为fasta)
    ???

    1. 统计上述reads_1.fa文件中共有多少条序列
      ???

    14)计算reads_1.fa文件中总的碱基序列的GC数量
    nl reads_1.fq| sed -n 2~4p | grep '[G|C]' -c

    15)删除 reads_1.fa文件中的每条序列的N碱基
    16)删除 reads_1.fa文件中的含有N碱基的序列

    1. 删除 reads_1.fa文件中的短于65bp的序列
      18) 删除 reads_1.fa文件每条序列的前后五个碱基
      19)删除 reads_1.fa文件中的长于125bp的序列
      20)查看reads_1.fq 中每条序列的第一位碱基的质量值的平均值

    相关文章

      网友评论

          本文标题:2018/12/11 作业 fasta和fastq格式文件的sh

          本文链接:https://www.haomeiwen.com/subject/xxqehqtx.html