美文网首页
基因组数据过滤、比对简介

基因组数据过滤、比对简介

作者: 花生学生信 | 来源:发表于2022-04-23 22:05 被阅读0次
    FastQ格式:

    (1)第一行以“@”开头,随后为Illumina测序标识别符(Sequence Identifiers)和描述文字(选择性部分);
    (2)第二行是碱基序列;
    (3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);
    (4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。

    碱基质量介绍
    FASTA格式

    FASTA格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格、换行和空行,直到下一个大于号,表示该序列的结束。

    有参转录组分析流程

    过滤流程
    cutadapt--去除接头污染
    cutadapt –a/-g  ADAPTER input.fq  >  output.fq
     Trim PairEnd Reads:
    cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fq -p out.2.fq reads.1.fq reads.2.fq
    
    BWA比对

    第一步: 建立 Index

    bwa index [-p prefix] [-a algoType] <in.db.fasta>
    
    -p 输出文件的前缀,默认是输入文件
    -a 建库的算法,默认是is( bwtsw  是用于大基因组建库>2Gb,is是用于小基因组建库<2Gb)
    例子:bwa index ref.fa
    

    第二步: 比对

    bwa mem [options] <idxbase> <in1.fq> [in2.fq]   
    bwa mem reference.fa read1.fq read2.fq > aln-pe.sam 
    

    相关文章

      网友评论

          本文标题:基因组数据过滤、比对简介

          本文链接:https://www.haomeiwen.com/subject/wwqzertx.html