FastQ格式:
(1)第一行以“@”开头,随后为Illumina测序标识别符(Sequence Identifiers)和描述文字(选择性部分);
(2)第二行是碱基序列;
(3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);
(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。
FASTA格式
FASTA格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格、换行和空行,直到下一个大于号,表示该序列的结束。
有参转录组分析流程
过滤流程
cutadapt--去除接头污染
cutadapt –a/-g ADAPTER input.fq > output.fq
Trim PairEnd Reads:
cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fq -p out.2.fq reads.1.fq reads.2.fq
BWA比对
第一步: 建立 Index
bwa index [-p prefix] [-a algoType] <in.db.fasta>
-p 输出文件的前缀,默认是输入文件
-a 建库的算法,默认是is( bwtsw 是用于大基因组建库>2Gb,is是用于小基因组建库<2Gb)
例子:bwa index ref.fa
第二步: 比对
bwa mem [options] <idxbase> <in1.fq> [in2.fq]
bwa mem reference.fa read1.fq read2.fq > aln-pe.sam
网友评论