美文网首页《生物软件及应用》课程笔记
tophat2+cufflinks转录组测序实例(3)——利用t

tophat2+cufflinks转录组测序实例(3)——利用t

作者: 邱俊辉 | 来源:发表于2018-10-16 11:49 被阅读73次

    在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了

    1.序列比对

    序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本,从而避免了使用其他软件时生成的sam文件要转化成bam文件才能作为cufflinks的输入文件
    代码如下

    tophat -p 20 -o tophat_out GCA_000009725.1_ASM972v1_genomic SRR5399538_1.fastq
    

    -p 指定线程

    -o 指定输出目录

    GCA_000009725.1_ASM972v1_genomic为利用bowtie2建立的索引文件

    SRR5399538_1.fastq 为利用SAM toolkit将原始数据sra文件解压后的fastq文件

    将待测基因分别于参考基因比对得到输出文件如图 14463769-ae06fafab69ce1f0.png

    accepted_hits.bam reads排序的结果以bam格式生成文件,是后面cufflinks软件的输入文件

    junctions.bed deletions.bed insertions.bed 这三个分别是:

    tophat处理的junctions,删除和插入的结果

    unmapped.bam 没有map上的序列

    align_summary.txt 可以查看map上的reads所占的比例

    2.利用cufflinks构建转录本

    比对完后,cufflinks就可以把比对到基因组的序列组装成一个转录组了,组装好的转录组包含了可能的剪切信息和所有转录的表达量Counts,从而计算出FPKM值

    代码如下

    cufflinks -g GCA_000009725.1_ASM972v1_genomic.gtf -o cufflinks_out -p 8 accepted_hits.bam
    

    -g 后面的为参考基因组的注释文件

    -o 指定输出目录

    -p 指定线程

    accepted_hits.bam 为用tophat2比对后的bam文件

    然后输出的cufflinks_out里面就会有四个文件如图 image

    下一步要用到的就是transcripts.gtf文件,这个文件就是样品的转录组

    3.利用cuffmerge合并转录组

    为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量
    代码如下

    cuffmerge -g GCA_000009725.1_ASM972v1_genomic.gtf -o merge_asm -p 8 accpted.txt
    

    -g 后面为参考基因组的注释文件

    -o 指定输出目录

    accpted.txt 为所有要合并的转录组的绝对路径
    例如

    image

    转录组拼接完成后会生成一个merged.gtf,这个文件就是合并好的转录组

    4.利用cuffdiff进行基因表达差异分析

    cuffdiff -o cuffdiff_out -L lable1,lable2,lable3,lable4 -p 10 -u merged_asm/merged.gtf tophat_out/SRR5399538/accepted_hits.bam  tophat_out/SRR5399539/accepted_hits.bam  tophat_out/SRR5399540/accepted_hits.bam  tophat_out/SRR5399541/accepted_hits.bam 
    

    -o 指定输出目录

    -L 后面是bam文件的标签,有几个bam文件就取几个标签,由于我只有四个bam文件所以只有四个标签

    -p 指定线程

    -u 后面跟利用cuffmerge合并后的转录本

    后面的是bam文件所在的绝对路径

    cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了
    cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了

    cuffdiff输出如图


    14463769-f3aa5a8e8efacd57.png1.png

    FPKM tracking files cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM

    isoforms.fpkm_tracking 转录组的FPKM

    gens.fpkm_tracking 基因的fpkm

    cds fpkm_tracking 编码序列的fpkm

    tss_groups.fpkm_tracking 原始转录组的FPKM

    2.Count tracking files

    评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目

    3.Read group tracking

    计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目

    4.Differential expression test

    对于splicing transcript, primary transcripts, genes,

    and coding sequences.样本之间的表达差异检验。

    相关文章

      网友评论

        本文标题:tophat2+cufflinks转录组测序实例(3)——利用t

        本文链接:https://www.haomeiwen.com/subject/dcaczftx.html