美文网首页GEO数据库
ID的认识(ensembl、ncbi)

ID的认识(ensembl、ncbi)

作者: Amy_Cui | 来源:发表于2019-06-14 16:20 被阅读24次

    想了解ID转换的ID类型,打开ncbi,类型下拉选择gene,搜索tp53,随便进入一个,如https://www.ncbi.nlm.nih.gov/gene/7157,各类型ID尽收眼底

    ID image.png

    Ensembl ID

    特征

    Gene Official Name,也就是Symbol可能是大家更愿意接受和理解的一种基因名,但是有时候我们会遇到类似下面这种:
    ENSG00000186092.4
    ENSG00000279928.1
    ENSG00000279457.2

    此处ENS*就是Ensembl ID,其所代表的是在Ensembl数据库中对基因的命名,当拿到这样一组数据时,当然是要先看懂其所代表的具体意义!

    以ENSG00000186092.4为例:

    1、ENS是固定字符,表示这是一个Ensembl ID。默认物种是人,如果是小鼠的话则以ENSMUS开头,更多物种编码详见:
    http://www.ensembl.org/info/genome/stable_ids/index.html

    2、G表示该id指的是一个基因,E for exon,** FM** for protein family, G for gene,** GT** for gene tree, P for protein, R for regulatory feature and T for transcript.

    3、00000186092为11个数字组成的唯一编号,可以理解为基因的真实编号

    4、.4为版本号,表示其在Ensembl数据中进行了4次变更

    对于Ensembl ID代表的意思详见:https://asia.ensembl.org/Help/Faq?id=488

    分类

    ENST和ENSG的前三个字母(ENS),意思是“ENSENMBLE”。

    • T是指转录本
    • G是指基因
    • P是指蛋白质

    备注:gencode的官网:https://www.gencodegenes.org/human/ 里的meta files里下载的ID对应的就是ENSTID

    NCBI ID

    GEO中最常用的entrez ID

    每一个核酸序列都是唯一的数字ID

    refseq的ID

    • NM开头的表示标准序列,
    • XM表示预测的蛋白编码序列,
    • NR_表示非编码蛋白的mRNA序列,
    • AF开头的表示克隆序列,
    • BC开头的表示模板序列,

    表格:

    ACCESSION MOLECULE METHOD NOTE
    AC_123456 Genomic Mixed 一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。
    AP_123456 Protein Mixed AC_标记序列对应的蛋白产物。
    NC_123456 Genomic Mixed 完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。
    NG_123456 Genomic Mixed 不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的假基因或者那些很难自行化注释的基因组簇。
    NM123456 mRNA Mixed 转录产物序列;成熟mRNA转录本序列。
    NP123456 Protein Mixed 蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列。
    NR_123456 RNA Mixed 非编码的转录子序列,包括结构RNAs,假基因转子等。
    NT_123456 Genomic Automated BAC或者鸟枪测序法的还未完全注释的测序序列。
    NW123456 Genomic Automated BAC或者鸟枪测序法的还未完全注释的测序序列。
    NZ_ABCD12345678 Genomic Automated 收集的各种利用鸟枪法测序的测序计划,ABCD代表的是计划的名称。
    XM123456XM123456789 mRNA Automated 转录产物;mRNA来自基因组注释,序列相当于基因组重叠群。
    XP123456XP123456789 Protein Automated 蛋白产物。序列相当于基因组重叠群。
    XR_123456 RNA Automated 转录产物;非编码区来自基因组注释,序列相当于基因组重叠群。
    YP123456YP123456789 Protein Mixed 蛋白产物。不涉及到转录,主要用来标记细菌、病毒和线粒体。
    ZP_12345678 Protein Automated 蛋白产物,主要是用电脑自动注释。
    NS_123456 Genomic Automated 未知生物分子基因组序列。

    备注:
    Mixed: indicates the process flow includes both automated processing and expert review for some of the records; curation analysis may be provided either by NCBI staff or collaborators. (由工作人员手动检查的)
    Automated: indicates records that are not individually reviewed; updates are released in bulk for a genome.(自动注释的)

    下载gene序列时fa格式内的ID

    gi|4557284|ref|NM_000646.1|[4557284]

    格式说明:gi :”GenBank Identifier的缩写”, 是序列的ID号,标识符。唯一的。4557284 就是该序列的gi号ref :标示该序列是参考序列。NM_000646.1 该序列的Accession号和版本号

    其他ncbi的id

    • taxid:物种id,比如人是7505
    • snpid:rs开头,如rs12345

    资料:
    生信菜鸟团:https://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng%3D%3D&mid=2247484130&idx=1&sn=96c181352eaff9fe0e9d955239f97d7c&scene=45#wechat_redirect
    http://www.360doc.com/content/18/1012/22/47596298_794247124.shtml

    相关文章

      网友评论

        本文标题:ID的认识(ensembl、ncbi)

        本文链接:https://www.haomeiwen.com/subject/updpfctx.html