Tophat 首次被发表已经是6年前
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
虽然这个组合分析的方法目前已经几乎被取代,但是作为一种学习方法我还是作为展示让大家认识和了解!!!
![](https://img.haomeiwen.com/i20028474/2e971f7b2e8159dd.png)
一、Tophat序列比对
1. Tophat安装
直接下载适合于Linux x86_64的二进制文件,解压缩即可使用。
$ wget http://tophat.cbcb.umd.edu/downloads/tophat-2.0.8b.Linux_x86_64.tar.gz
$ tar zxf tophat-2.0.8b.Linux_x86_64.tar.gz
#前提条件当然要安装Bowtie, Bowtie2, SAM tools, Boost C++ libraries等。
2. 构建bowtie index
bowtie2-build Genome.fasta Genome
3. Align the RNA-seq read to genome using Tophat2 + bowtie2
tophat2 --output-dir ./ --read-mismatches 2--read-edit-dist 2--max-intron-length 5000000 --library-type fr-unstranded --num-threads 8 --GTF Ref_Genome/Genome.gtf --mate-inner-dist 40 Ref_Genome/Genome sample_1.fq sample_1.fq &
4. Statistic bam files(略)
二、Cufflinks Assembly Analysis
1. Cufflinks说明
Cufflinks 利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。这个软件其实是个套装,包括四个部分分别命名为:cufflinks、cuffcompare、cuffmerge及cuffdiff。
第一步,利用tophat/bowtie比对结果(bam格式)及参考基因组构建转录本,最终的转录本是以gtf格式保存的。
第二步,Cuffcompare主要是对两个或多个转录本集合中转录本相似情况的比较,例如将第一步构建出的转录本与ENSEMBL数据库中的转录本进行比较,评估转录本构建情况,此外,根据构建的转录本与已知ENSEMBL数据库中的转录本的相对位置定义了一系列分类,例如内含子区域、反义、基因间区域转录本等等近10种分类。
第三步,cuffmerge是将多个转录本集合合并成一套转录本集合,例如将在多个组织样本中构建的多套转录本合并成一套转录本,cuffmerge能够很好地完成去除冗余。
第四步,cuffquant是cuffquant能够对单个 BAM 文件的基因转录本表达水平进行定量分析。生成的是CXB文件abundances.cxb,,可以作为cuffdiff的输入,这会加快cuffdiff的运行速度。也可以作为Cuffnorm的输入。
第五步,cuffdiff主要是发现转录本表达,剪接,启动子使用的明显变化。cuffdiff接受bam/sam或cuffquant的CXB文件,同时也可以接受bam与sam的混合文件,不能接受bam/sam和CXB的混合文件。cuffdiff计算每个样本中的转录本,初始转录本和基因的FPKM。其中,基因和初始转录本的FPKM的计算是在每个转录本group和基因group中的转录本的FPKM的求和。
第五步,cuffnorm能够用 cuffquant 的输出文件作为输入文件,对基因和转录组,简单计算标准化过的表达水平。当你想要的是一系列可比较的基因、转录组、CDS 组和 TSS 组的表达值时,可是使用 cuffnorm。例如,当你仅仅想对单个基因的表达值做个热图或者点图时
2. Cufflinks执行
cufflinks -o ./ -p 6 -g Ref_Genome/Genome.gtf --library-type fr-unstranded -u -L $sample Tophat/$sample/accepted_hits.bam &
cuffcompare -r Ref_Genome/Genome.gtf Cufflinks/$sample/transcripts.gtf
#assembly_GTF_list.txt为不同样本的gtf列表$sample/transcripts.gtf
cuffmerge -o ./Cuffmerge -g Ref_Genome/Genome.gtf -p 6 assembly_GTF_list.txt
#$idx_prefix.fa为samtools faidx Ref_Genome/Genome.fasta构建的基因组索引
cuffquant -o ./ -p 6 -b Ref_Genome/$idx_prefix.fa -u --max-bundle-frags 50000000 --library-type fr-unstranded Cuffmerge/merged.gtf Tophat/$sample/accepted_hits.bam &
cuffdiff -o diff_out -b Ref_Genome/$idx_prefix.fa -p 8 –L C1,C2 -u merged.gtf ./C1_R1_thout/accepted_hits.bam, ./C1_R2_thout/accepted_hits.bam, ./C1_R3_thout/ accepted_hits.bam, ./C2_R1_thout/accepted_hits.bam, ./C2_R2_thout/accepted_hits.bam,./C2_R3_thout/accepted_hits.bam
cuffnorm --library-type fr-unstranded --output-format cuffdiff -o ./Cuffnorm -q -p 6 -L
网友评论