美文网首页🍊码农3_DATA_CLEANING
gene symbol 中的奇怪开头基因

gene symbol 中的奇怪开头基因

作者: 因地制宜的生信达人 | 来源:发表于2018-01-17 20:34 被阅读245次

    这本是我为论坛的基础板块写的一个 基础知识点,但是浏览量实在有限,不忍它蒙尘,特在博客重新发布一次!

    原帖见:http://www.biotrainee.com/thread-511-1-1.html

    gene symbol

    gene symbol 是非常官方的,由HUGO组织负责维护,有专门的数据库HGNC database of human gene names | HUGO
    以前分析数据的时候,有一些基因的symbol很奇怪,让我百思不得其解,比如

    • C orf 系列基因
    • HS.系列基因
    • KRTAP系列基因
    • LOC系列基因
    • MIR系列基因
    • LINC系列基因

    它们往往一个系列,就有好几百个基因;

    C12orf44; Chromosome 12 Open Reading Frame 44; 这个是C orf系列基因的意思
    MIR系列基因应该是 miRNA相关的基因
    LINC系列基因应该就是long intergenic non-protein coding RNA
    LOC系列基因,是非正式的,推定的,日后可能被更合适的名字替代

    基因对应

    我这里做好了所有的基因对应关系,去生信菜鸟团QQ群里下载吧,共47938个基因的symbol和entrez gene id还有name,还有alias的对应!

    1

    还有一些RNA基因,根本就没有symbol,比如: CTA/B/C/D系列的

    Aliases for ENSG00000271971 Gene
    Quality Score for this RNA gene is 1
    Aliases for ENSG00000271971 Gene
    CTD-2006H14.2 5
    External Ids for ENSG00000271971 Gene
    Ensembl: ENSG00000271971

    还有,如果你看到HS.开头的基因,它是 unigene 的ID了,已经不再是symbol啦。

    相关文章

      网友评论

        本文标题:gene symbol 中的奇怪开头基因

        本文链接:https://www.haomeiwen.com/subject/ojtpoxtx.html