在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了
1.序列比对
序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本,从而避免了使用其他软件时生成的sam文件要转化成bam文件才能作为cufflinks的输入文件
代码如下
tophat -p 20 -o tophat_out GCA_000009725.1_ASM972v1_genomic SRR5399538_1.fastq
-p 指定线程
-o 指定输出目录
GCA_000009725.1_ASM972v1_genomic为利用bowtie2建立的索引文件
SRR5399538_1.fastq 为利用SAM toolkit将原始数据sra文件解压后的fastq文件
将待测基因分别于参考基因比对得到输出文件如图 14463769-ae06fafab69ce1f0.pngaccepted_hits.bam reads排序的结果以bam格式生成文件,是后面cufflinks软件的输入文件
junctions.bed deletions.bed insertions.bed 这三个分别是:
tophat处理的junctions,删除和插入的结果
unmapped.bam 没有map上的序列
align_summary.txt 可以查看map上的reads所占的比例
2.利用cufflinks构建转录本
比对完后,cufflinks就可以把比对到基因组的序列组装成一个转录组了,组装好的转录组包含了可能的剪切信息和所有转录的表达量Counts,从而计算出FPKM值
代码如下
cufflinks -g GCA_000009725.1_ASM972v1_genomic.gtf -o cufflinks_out -p 8 accepted_hits.bam
-g 后面的为参考基因组的注释文件
-o 指定输出目录
-p 指定线程
accepted_hits.bam 为用tophat2比对后的bam文件
然后输出的cufflinks_out里面就会有四个文件如图 image下一步要用到的就是transcripts.gtf文件,这个文件就是样品的转录组
3.利用cuffmerge合并转录组
为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量
代码如下
cuffmerge -g GCA_000009725.1_ASM972v1_genomic.gtf -o merge_asm -p 8 accpted.txt
-g 后面为参考基因组的注释文件
-o 指定输出目录
accpted.txt 为所有要合并的转录组的绝对路径
例如
转录组拼接完成后会生成一个merged.gtf,这个文件就是合并好的转录组
4.利用cuffdiff进行基因表达差异分析
cuffdiff -o cuffdiff_out -L lable1,lable2,lable3,lable4 -p 10 -u merged_asm/merged.gtf tophat_out/SRR5399538/accepted_hits.bam tophat_out/SRR5399539/accepted_hits.bam tophat_out/SRR5399540/accepted_hits.bam tophat_out/SRR5399541/accepted_hits.bam
-o 指定输出目录
-L 后面是bam文件的标签,有几个bam文件就取几个标签,由于我只有四个bam文件所以只有四个标签
-p 指定线程
-u 后面跟利用cuffmerge合并后的转录本
后面的是bam文件所在的绝对路径
cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了
cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了
cuffdiff输出如图
14463769-f3aa5a8e8efacd57.png1.png
FPKM tracking files cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM
isoforms.fpkm_tracking 转录组的FPKM
gens.fpkm_tracking 基因的fpkm
cds fpkm_tracking 编码序列的fpkm
tss_groups.fpkm_tracking 原始转录组的FPKM
2.Count tracking files
评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目
3.Read group tracking
计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目
4.Differential expression test
对于splicing transcript, primary transcripts, genes,
and coding sequences.样本之间的表达差异检验。
网友评论