美文网首页R语言蛋白组学习
clusterProfiler包进行id转换

clusterProfiler包进行id转换

作者: 学习生信的小兔子 | 来源:发表于2021-04-09 12:09 被阅读0次

    常用id

    Ensemble id:由欧洲生物信息数据库提供,一般以ENSG开头,后边跟11位数字。如TP53基因:ENSG00000141510
    Entrez id:由美国NCBI提供,通常为纯数字。如TP53基因:7157
    Symbol id:为我们常在文献中报道的基因名称。如TP53基因的symbol id为TP53
    Refseq id:NCBI提供的参考序列数据库:可以是NG、NM、NP开头,代表基因,转录本和蛋白质。如TP53基因的某个转录本信息可为NM_000546
    简单介绍一下clusterProfiler包
    clusterProfiler包是有Y叔开发的包之一,可以进行基因及基因簇的分析和基因谱功能可视化,功能强大且更新很频繁。我们今天在clusterProfiler包中用到的是其中的叫做bitr()和bitr_kegg()的函数,支持许多物种的ID转换。

    clusterProfiler包的安装

    #安装
    if (!requireNamespace("BiocManager", quietly = TRUE))
        install.packages("BiocManager")
    
    BiocManager::install("clusterProfiler")
    #查看帮助文档
    browseVignettes('clusterProfiler')
    #载入包
    library(clusterProfiler)
    #载入注释包  如人类的基因组注释包library(org.Hs.eg.db)
    library(org.Hs.eg.db)
    

    简单地说明一下注释包:
    因为在不同的物种中,都有着不同的注释信息。当我们要进行人类的基因组的注释时,我们要选择人类的基因组注释包。另外,在bioconductor中OrgDb对象支持19个物种的注释http://bioconductor.org/packages/release/BiocViews.html#___OrgDb

    查看注释包中支持的ID转换类型

    clusterProfiler包方便地提供了keytypes()函数查看注释包中的可以进行ID转换的项目。查看一下人类的注释包中支持的ID转换类型。
    常用的几种,如:ENSEMBL、ENTREZID、SYMBOL、REFSEQ都在其中
    keytypes(org.Hs.eg.db)

    ID转换

    如果输入的是SYMBOL ID的话

    利用birt()函数

    eg <- bitr(x,fromType = 'SYMBOL',
               toType = c('ENTREZID','ENSEMBL','REGSEQ'),
               OrgDb='org.HS.eg.db',
    )
    #其中的参数代表:
    geneID:输入的geneID
    fromType:输入的ID类型
    toType:输出的ID类型
    OrgDb:注释对象的信息
    Drop:去除空值与否
    

    结果


    函数输出的对象为数据框dataframe,有利用数据框的操作方式进行后续操作。

    一个小例子

    利用bitr_kegg()函数进行基因ID与蛋白质ID的转换

    和之前的bitr函数类似,完整的bitr_kegg()函数为bitr_kegg(geneID, fromType, toType, organism, drop = TRUE)
    注意:
    1.这里我们的输入fromType以及输出toType,允许的ID为必须为:‘kegg’, ‘ncbi-geneid’, ‘ncbi-proteinid’ or ‘uniprot’中的一个,否则会报错;另外,kegg id的数据源是NCBI,所以这个kegg id与entrez id是一致的。
    2.orgaism参数可以为:‘hsa’,代表人类。其他的物种名称可以参考kegg的网站https://www.genome.jp/kegg/catalog/org_list.html

    以TP53基因为例,我们这里的输入为TP53的entrez id: 7157

    这里我们需要了解为什么会出现3个不同的uniprot。

    首先,在uniprot中,uniProtKB是经过专家校验的蛋白数据库集,我们一般也通过该数据库查找蛋白的信息。UniProtKB英文全称UniProt Knowledgebase(UniProt知识库。主要由两部分组成:UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目)。 网址为:https://www.uniprot.org/


    我们分别看一下我们通过转换之后的uniprot id在uniprot数据库中的说明。我们进入数据库中查询,可以发现,P04637显示的是TP53基因的蛋白质表达水平,级别是Reviewed,就是其来源为UniProtKB/Swiss-Prot。



    同理,我们可以找到K7PPA8和Q53GA5的结果。两者都是转录本水平的表达,级别都是Unreviewed,就是其来源为UniProtKB/TrEMBL。另外,相对而言,K7PPA8的注释分数要高,说明注释的程度要高一些。

    ID转换之后

    一般ID转换仅仅为开始的准备工作,将自己的数剧转换好之后可以进行后续的分析。另外,利用clusterProfiler包可以进行许多丰富的下游分析,比如GO分析、KEGG分析等等,有兴趣的同学们可以进一步学习。
    参考 http://www.360doc.com/content/19/0506/00/30846661_833639624.shtml

    相关文章

      网友评论

        本文标题:clusterProfiler包进行id转换

        本文链接:https://www.haomeiwen.com/subject/pjrikltx.html