美文网首页
cufflinks使用-2 (2018-05-29)

cufflinks使用-2 (2018-05-29)

作者: 简单点lili | 来源:发表于2018-05-31 09:33 被阅读0次

    更多请了解Cufflinks:  http://cole-trapnell-lab.github.io/cufflinks/

    图片来自上面的网址,cufflink workflow

    Cufflinks 利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接

    这个软件其实是个套装,包括四个部分分别命名为:cufflinks、cuffcompare、cuffmerge及cuffdiff.

    流程:

    第一步,利用tophat/bowtie比对结果(bam格式)及参考基因组构建转录本,最终的转录本是以gtf格式保存的。

    第二步,Cuffcompare主要是对两个或多个转录本集合中转录本相似情况的比较,例如将第一步构建出的转录本与ENSEMBL数据库中的转录本进行比较,评估转录本构建情况,此外,根据构建的转录本与已知ENSEMBL数据库中的转录本的相对位置定义了一系列分类,例如内含子区域、反义、基因间区域转录本等等近10种分类。

    第三步,cuffmerge是将多个转录本集合合并成一套转录本集合,例如将在多个组织样本中构建的多套转录本合并成一套转录本,cuffmerge能够很好地完成去除冗余。

    第四步,cuffdiff衡量两个或多个样本间差异表达的基因,例如癌症与正常组织间差异表达的转录本,此外还能衡量差异可变剪接体。

    至此,转录本测序常规数据分析基本结束,接下来进行实验验证或深入数据分析。

    具体实例:

    Mapping完了以后,cufflinks就可以把map到基因组里的序列组装成一个转录组了,这个转录组理论上包含了所有当时细胞里的所有mRNA,组装好的转录组包含了可能的剪切信息和所有转录的表达量,这个表达量是根据map到基因组的序列的总数和每个转录片断的长度进行归一化的,听起来比较难懂,它是对于在转录片断里的每一千个碱基对,在每一百万个成功map的序列中,map在这一千个碱基对上的序列的比例,

    fragments per kilobase of transcript per million mapped fragments (FKPM)。

    参考生信菜鸟团:http://www.bio-info-trainee.com/166.html

    详细使用参照:http://blog.sina.com.cn/s/blog_751bd9440102v72b.html

    [   Cufflinks输出结果

    cufflinks的输入文件是sam或bam格式。并且sam或bam格式的文件必须排好序。(The SAM file supplied to Cufflinksmustbe sorted by          reference position.)Tophat的输出结果sam或bam已经排好了序。针对其他的未排序的sam或bam文件采用如下排序方式:

    sort -k 3,3 -k 4,4n hits.sam > hits.sam.sorted

    1. transcripts.gtf

    该文件包含Cufflinks的组装结果isoforms。前7列为标准的GTF格式,最后一列为attributes。其每一列的意义:

    列数  列的名称  例子        描述

    1    序列名    chrX        染色体或contig名; 2    来源      Cufflinks  产生该文件的程序名; 3    类型      exon        记录的类型,一般是transcript或exon; 4    起始      1          1-base的值; 5    结束      1000        结束位置; 6    得分      1000        ; 7    链        +          Cufflinks猜测isoform来自参考序列的那一条链,一般是'+','-'或'.';8    frame    .          Cufflinks不去预测起始或终止密码子框的位置; 9    attributes  ...      详见下

    每一个GTF记录包含如下attributes:

    Attribute      例子      描述

    gene_idCUFF.1Cufflinks的gene id;transcript_idCUFF.1.1  Cufflinks的转录子 id; FPKM          101.267  isoform水平上的丰度,FragmentsPerKilobase of exon model perMillion mapped fragments; frac          0.7647    保留着的一项,忽略即可,以后可能会取消这个;conf_lo        0.07      isoform丰度的95%置信区间的下边界,即 下边界值 = FPKM * ( 1.0 - conf_lo );conf_hi        0.1102    isoform丰度的95%置信区间的上边界,即 上边界值 = FPKM * ( 1.0 + conf_hi ); cov            100.765 计算整个transcript上read的覆盖度;full_read_support  yes  当使用 RABT assembly 时,该选项报告所有的introns和exons是否完全被reads所覆盖

    2. ispforms.fpkm_tracking

    isoforms(可以理解为gene的各个外显子)的fpkm计算结果

    3. genes.fpkm_tracking

    gene的fpkm计算结果Cuffmerge简介

    Cuffmerge将各个Cufflinks生成的transcripts.gtf文件融合称为一个更加全面的transcripts注释结果文件merged.gtf。以利于用Cuffdiff来分析基因差异表达。

    2. 使用方法

    $ cuffmerge [options]*

    输入文件为一个文本文件,是包含着GTF文件路径的list。常用例子:

    $ cuffmerge -o ./merged_asm -p 8 assembly_list.txt

    3. 使用参数

    -h | --help

    -o  default: ./merged_asm

    将结果输出至该文件夹。

    -g | --ref-gtf将该reference GTF一起融合到最终结果中。

    -p | --num-threads  defautl: 1

    使用的CPU线程数

    -s | --ref-sequence /该参数指向基因组DNA序列。如果是一个文件夹,则每个contig则是一个fasta文件;如果是一个fasta文件,则所有的contigs都需要在里面。Cuffmerge将使用该ref-sequence来帮助对transfrags分类,并排除repeats。比如transcripts包含一些小写碱基的将归类到repeats.  ]

    4. Cuffmerge输出结果

    输出的结果文件默认为 /merged.gtf

    <1>命令:cufflinks -p 4 -o test_cuff /home/andengdi/lyr/rna-seq/02-align_out/test_output/accepted_hits.bam

    流程及结果

    5  为了得到匹配到的序列,将gif文件中的序列提取出来。

    相关文章

      网友评论

          本文标题:cufflinks使用-2 (2018-05-29)

          本文链接:https://www.haomeiwen.com/subject/kmgojftx.html