美文网首页ggplot集锦
笔记 | Ensemble GTF中的biotype

笔记 | Ensemble GTF中的biotype

作者: 尘世中一个迷途小书僮 | 来源:发表于2021-04-24 21:23 被阅读0次

    记录Ensemble的GTF注释文件时的一些内容

    Biotype 指的是基因或转录本的分类。

    • IG gene: 发生体细胞基因重组的免疫球蛋白基因,由IMGT注释(http://www.imgt.org/.)
      • IG C gene: C区(constant chain) 发生重组的免疫球蛋白基因
      • IG D gene: D区(diversity chain)发生重组的免疫球蛋白基因
      • IG J gene: J区(joining chain)发生重组的免疫球蛋白基因
      • IG V gene: V区(variable chain)发生重组的免疫球蛋白基因
    免疫球蛋白(Ig)基因的示意图 (Feederle and Schepers 2017)
    • Nonsense Mediated Decay: 指的是具有提前的终止密码子的转录本,这会使得翻译提前终止。通常的预测方法是判断该转录本最终的剪接位点上游50bp是否存在阅读框内的终止密码子(核糖体对转录本的读取以三个碱基为单位,所谓的框内(in-frame)密码子指的便是符合核糖体读取规则的三联碱基)。

    • Processed transcript: 不具有开放阅读框(open reading frame, ORF)的基因或转录本。

      • Long non-coding RNA (lncRNA): 长度大于200nt的非编码RNA
      • ncRNA: 非编码RNA
        • miRNA: 长度约为22nt的非编码RNA,执行转录负调控作用
        • miscRNA (Miscellaneous RNA): 暂时未分类的非编码RNA
        • piRNA: 与piwi 蛋白相互作用的RNA,参与到基因沉默的调控
        • rRNA: 核糖体RNA
        • siRNA: 长度约为20-25bp的非编码RNA,通过RNAi 途径沉默靶mRNA的表达
        • snRNA: 小核RNA,定位于细胞核内,参与到pre-mRNA的加工过程
        • snoRNA: 小核仁RNA,定位于核仁,于其他RNA的转录后修饰相关
        • tRNA: 转运RNA
        • vaultRNA: 短的非编码RNA,是 vault ribonucleoprotein complex的组成部分
    • Protein coding: 具有开放阅读框(open reading frame, ORF)的基因或转录本。

    • Pseudogene: 与已知的蛋白编码基因具有同源性的假基因,但基因序列含有移码突变和/或具有提前终止密码子。目前认为是由于基因的重复或功能丧失突变而产生的。

      • IG pseudogene: 不具有活性的免疫球蛋白基因

      • Polymorphic pseudogene: 多态性假基因,由于单核苷酸多态性(SNP)导致的假基因,在其他的个体、单倍型(haplotypes)或品系中该基因是表达。

      • Processed pseudogene: 加工过的假基因,该类假基因缺少内含子,可能是由于mRNA反转录后插入到基因组中所产生的。

      • Transcribed pseudogene: 可转录的假基因,能检测到转录本但检测不到蛋白或基因序列特征也表明它是假基因的类型。这类假基因也可被归类到 'Processed', 'Unprocessed' 和 'Unitary'.

      • Translated pseudogene: 可翻译的假基因,能在质谱检测到其编码的蛋白。这类假基因也可被归类到 'Processed', 'Unprocessed'

      • Unitary pseudogene: 一类特殊的没有祖先基因的假基因,同时在其他物种中还具有活跃表达的直系同源物。

      • Unprocessed pseudogene: 由于基因复制产生的假基因,可能包含内含子

    • Readthrough: 读通现象,即该转录本的外显子与其它转录本的外显子有重叠导致核糖体可以跨越终止密码子继续往下游(另外的转录本)阅读。

    • Stop codon readthrough: 编码序列包含被翻译的终止密码子(由实验证据支持),而终止发生在更下游的经典终止密码子上。 目前尚不清楚哪个密码子可用来替代被翻译的终止密码子,因此在蛋白质序列中以“ X”表示

      • TEC (To be Experimentally Confirmed): 具有一定可转录特征的基因,还需要实验手段验证其转录本。
    • TR gene: 发生体细胞基因重组的T细胞受体基因,由IMGT注释(http://www.imgt.org/.)

      • TR C gene: C区(constant chain) 发生重组的T细胞受体基因
      • TR D gene: D区(diversity chain)发生重组的T细胞受体基因
      • TR J gene: J区(joining chain)发生重组的T细胞受体基因
      • TR V gene: V区(variable chain)发生重组的T细胞受体基因
    TcR beta 基因的重组 (https://www.pinterest.com/pin/32228953563240153/)

    ref:
    http://asia.ensembl.org/info/genome/genebuild/index.html
    http://asia.ensembl.org/info/genome/genebuild/annotation_merge.html

    完。

    相关文章

      网友评论

        本文标题:笔记 | Ensemble GTF中的biotype

        本文链接:https://www.haomeiwen.com/subject/otjlrltx.html