1.序列比对

序列比对用到tophat2软件，使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后，会直接生成bam文件，生成的bam文件直接可以给cufflinks构建转录本，从而避免了使用其他软件时生成的sam文件要转化成bam文件才能作为cufflinks的输入文件
代码如下

tophat -p 20 -o tophat_out GCA_000009725.1_ASM972v1_genomic SRR5399538_1.fastq

-p 指定线程

-o 指定输出目录

GCA_000009725.1_ASM972v1_genomic为利用bowtie2建立的索引文件

SRR5399538_1.fastq 为利用SAM toolkit将原始数据sra文件解压后的fastq文件

将待测基因分别于参考基因比对得到输出文件如图

14463769-ae06fafab69ce1f0.png

accepted_hits.bam reads排序的结果以bam格式生成文件，是后面cufflinks软件的输入文件

junctions.bed deletions.bed insertions.bed 这三个分别是：

tophat处理的junctions，删除和插入的结果

unmapped.bam 没有map上的序列

align_summary.txt 可以查看map上的reads所占的比例

2.利用cufflinks构建转录本

比对完后，cufflinks就可以把比对到基因组的序列组装成一个转录组了，组装好的转录组包含了可能的剪切信息和所有转录的表达量Counts，从而计算出FPKM值

代码如下

cufflinks -g GCA_000009725.1_ASM972v1_genomic.gtf -o cufflinks_out -p 8 accepted_hits.bam

-g 后面的为参考基因组的注释文件

-o 指定输出目录

-p 指定线程

accepted_hits.bam 为用tophat2比对后的bam文件

然后输出的cufflinks_out里面就会有四个文件如图

image

下一步要用到的就是transcripts.gtf文件,这个文件就是样品的转录组

3.利用cuffmerge合并转录组

为了比较不同样品的差异，需要将实验组和对照组的转录组合并起来，cuffmerge不仅能用来合并，两个或多个转录组，还能把注释过后的基因组信息也合并起来，从而找到新的基因可变剪切提高合并转录组的质量
代码如下

cuffmerge -g GCA_000009725.1_ASM972v1_genomic.gtf -o merge_asm -p 8 accpted.txt

-g 后面为参考基因组的注释文件

-o 指定输出目录

accpted.txt 为所有要合并的转录组的绝对路径
例如

image

转录组拼接完成后会生成一个merged.gtf,这个文件就是合并好的转录组

4.利用cuffdiff进行基因表达差异分析

cuffdiff -o cuffdiff_out -L lable1,lable2,lable3,lable4 -p 10 -u merged_asm/merged.gtf tophat_out/SRR5399538/accepted_hits.bam  tophat_out/SRR5399539/accepted_hits.bam  tophat_out/SRR5399540/accepted_hits.bam  tophat_out/SRR5399541/accepted_hits.bam

-o 指定输出目录

-L 后面是bam文件的标签，有几个bam文件就取几个标签，由于我只有四个bam文件所以只有四个标签

-p 指定线程

-u 后面跟利用cuffmerge合并后的转录本

后面的是bam文件所在的绝对路径

cuffdiff输出文件比较多，它会对每个基因，每个转录片段，每个编码序列，每个基因的不同剪切体进行FPKM，个数和样本间差异进行分析，最后生成机组不同的文件，按照不同的需求，就可以往下分析了
cuffdiff输出文件比较多，它会对每个基因，每个转录片段，每个编码序列，每个基因的不同剪切体进行FPKM，个数和样本间差异进行分析，最后生成机组不同的文件，按照不同的需求，就可以往下分析了

cuffdiff输出如图