美文网首页
基因组数据过滤、比对简介

基因组数据过滤、比对简介

作者: 花生学生信 | 来源:发表于2022-04-23 22:05 被阅读0次
FastQ格式:

(1)第一行以“@”开头,随后为Illumina测序标识别符(Sequence Identifiers)和描述文字(选择性部分);
(2)第二行是碱基序列;
(3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);
(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。

碱基质量介绍
FASTA格式

FASTA格式首先以大于号“>”开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格、换行和空行,直到下一个大于号,表示该序列的结束。

有参转录组分析流程

过滤流程
cutadapt--去除接头污染
cutadapt –a/-g  ADAPTER input.fq  >  output.fq
 Trim PairEnd Reads:
cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fq -p out.2.fq reads.1.fq reads.2.fq
BWA比对

第一步: 建立 Index

bwa index [-p prefix] [-a algoType] <in.db.fasta>
-p 输出文件的前缀,默认是输入文件
-a 建库的算法,默认是is( bwtsw  是用于大基因组建库>2Gb,is是用于小基因组建库<2Gb)
例子:bwa index ref.fa

第二步: 比对

bwa mem [options] <idxbase> <in1.fq> [in2.fq]   
bwa mem reference.fa read1.fq read2.fq > aln-pe.sam 

相关文章

网友评论

      本文标题:基因组数据过滤、比对简介

      本文链接:https://www.haomeiwen.com/subject/wwqzertx.html