1分析步骤
1.1序列延伸(inchworm)--虫
-将reads切割为 k-mers(k bp长度的短片段)
-利用Overlap关系对k-mers进行延伸(贪婪算法)
-输出所有的序列(configs)
1.2构建 de Bruijn graph(chrysalls) --蛹
-聚类所有相似区域大于k-1 bp的contigs
-构图(区分不同的 'components')
-将reads比对回 components,进行验证
1.3解图,列举为转录本(butterfly) --蝶
-拆分 graph 为线性序列
-使用reads以及pairs关系消除错误序列
首先对测序文件进行组装
#双端测序,-seqType表示input数据的格式,一般是fastq格式
Trinity --seqType fq --left seq.left.fq.gz --right seq.right.fq.gz --CPU 1 --max_memory 1G
2结果解读
2.1测序质量
2.2冗余
(1)去除低质量read,一般按测序结果fastqc查看是否存在低质量序列,用catadapt将其去除
(3)检查外源dna的污染,利用序列比对寻找外源基因
(4)使用Normalization参数,降低高丰度基因的reads数据,同时提高组装效率
(5)后续聚类以及过滤
2.3去冗余
#提取最长转录本
/dir/trinityrnaseq-2.2.0/util/misc/get_longest_isoform_seq_per_trinity_gene.pl Trinity.fasta >unigene.fasta
#软件聚类去冗余
cd-hit-est -i Trinity.fasta -o output-cdhit -T 1 -M 1000
3比对和丰度计算
3.1首先比对reads评估表达量
/dir/align_and_estimate_abundance.pl --transcripts unigene.fasta --seqType fq --left reads_1.fq.gz --right reads_2.fq.gz --est_method RSEM --aln_method bowtie --trinity_mode --prep_reference --output_dir resm_outdir
3.2查看mapping结果
perl /dir/SAM_nameSorted_to_uniq_count_stats.pl bowtie.bam
4进行差异分析
4.1创建表达矩阵
/dir/abundance_estimates_to_matrix.pl --est_method RSEM dir/isoforms.results
4.2利用edgeR
进行无差异分析
/dir/run_DE_analysis.pl matrix Trinity_trans.counts.matrix --dispersion 0.1 --method edgeR --output edgeR
网友评论