美文网首页RNA-seq
ONT全长转录组测序分析(三)-pipline背景

ONT全长转录组测序分析(三)-pipline背景

作者: 信你个鬼 | 来源:发表于2020-09-09 11:51 被阅读0次

    第一,二期见丁香园,由于丁香园坑爹的排版方式,已经弃坑。

    ONT全长转录组测序分析-背景

    在进行正式的流程分析之前,我们先了解以下常规的ONT全长转录组分析都有哪些内容。根据这张图,我们可以看见三代全长转录组主要做结构上的分析,由于测序长度非常有优势。我们来了解一下几个概念:

    全长转录组测序分析流程
    全长序列

    根据cDNA测序原理,reads两端识别到引物则判断为全长序列。
    这是一个实际项目中全长序列占所有cleandata数据的比例,物种为人:

    image-20200908235758904.png
    一致性序列

    全长序列用minimap2软件与参考基因组进行比对,通过比对信息进行聚类后,使用pinfish软件就得到了一致性序列,即从全长序列得到一致性序列。

    转录本去冗余

    为得到质量较高的一致性序列,从全长序列得到一致性序列过程中参数设置较严格,同一转录本的多拷贝序列可能没有集中在同一个一致性序列,因此,产生了冗余序列。同时,全长转录本测序过程中,3'端因存在polyA结构,可以确定3'端比较完整,而5'端序列可能存在降解,导致同一转录本的不同拷贝分到不同的cluster中,如下图绿色圈中所示,5'端差异造成不同转录本,导致冗余序列的产生。

    APA分析

    可变多聚腺苷酸化(alternative polyadenylation, APA)。多聚腺苷酸化是指多聚腺苷酸与信使RNA(mRNA)分子的共价链结。在蛋白质生物合成的过程中,这是产生准备作翻译的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一种机制,使mRNA分子于它们的3'端中断。多聚腺苷酸尾(或聚A尾)保护mRNA,免受核酸外切酶攻击,并且对转录终结、将mRNA从细胞核输出及进行翻译都十分重要。前体mRNA的APA可能贡献于转录组多样性,基因组的编码能力以及基因的调控机制。

    可采用TAPIS pipeline,DaPars2等识别APA。

    image-20200909104426089.png
    SSR分析

    在基因组中存在着大量的重复序列,根据其重复的程度可分为简单重复序列、中度重复序列和高度重复序列。简单重复序列(Simple Sequence Repeat,SSR]在真核生物基因组中广泛存在,一般是以1-6bp组成较低程度的重复序列,主要以2-3个核苷酸为重复单位如(GA)n、(AC)n和(GAA)n等。从进化角度看物种间重复序列的差异是自然选择的结果。因此鉴定SSR在基因组分析中有重要意义。

    SSR主要有7种类型的SSR:

    • Mono-nucleotide(单碱基)
    • Di-nucleotide(双碱基)
    • Tri-nucleotide(三碱基)
    • Tetra-nucleotide(四碱基)
    • Penta-nucleotide(五碱基)
    • Hexa-nucleotide(六碱基)
    • compound SSR(混合微卫星,两个SSR距离小于100bp)

    MISA (MIcroSAtellite identification tool)是一款鉴定简单重复序列的软件,它可以通过对转录本序列的分析,鉴定出以上7中类型的SSR。

    SRR实际分析结果统计:

    image-20200909110429194.png

    结果统计图

    image-20200909110928860.png
    可变剪切

    有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing) 。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制, 是导致真核生物基因和蛋白质数量较大差异的重要原因。

    可变剪切的形式复杂多样,大致可以分为5大类,可以使用Astalavista软件进行分析。

    • 第一类是外显子跳跃型(exon skipping),发生跳跃的外显子和其两侧的内含子都被剪切掉,上游和下游的外显子被直接连着一起保留在剪切后的产物中。

    • 第二类是内含子滞留型(intron retention),某一段核苷酸序列在一个剪切体中是外显子的一部分,而在与之对照的剪切体中却是内含子而被剪切掉。

    • 第三类是可变5’或3’端剪切(alternative 5’ss splice or alternative 3’ss splice,其中5’ss称供体位点,3’ss称受体位点),和与它对照的另一个剪切体相比,发生剪切的位点在5’或3’端不同,除此,其他剪切选择一致。

    • 第四类是转录起始区域可变剪切(alternative TSS),发生剪切的位点在转录起始区域,即与之对应的另一个剪切体除转录起始位点不同外,其余一致。

    • 第五类是转录终止区域可变剪切(alternative TTS),与第四类对应,发生剪切的位点只是在转录终止位点不同。

    image-20200909110210577.png

    以下是某个实际项目中可变剪切的统计结果,我们可以看到一般真核生物中外显子跳跃这种类型的可变剪切占比最多,较为常见:

    image-20200909110343378.png

    相关文章

      网友评论

        本文标题:ONT全长转录组测序分析(三)-pipline背景

        本文链接:https://www.haomeiwen.com/subject/naleektx.html