1. 目的
不同的基因名之间的相互转换是生信中经常遇到的问题,比如Ensemble ID,UCSC ID,Gene Symbol等,基因名也在不停的更新,往往一个基因可能存在不同的Gene Symbol。
HGNC(HUGO Gene Nomenclature Committee,人类基因命名委员会)提供了统一的基因名的命名规则,可以进行方便的基因名的管理。
2. 方法
我们使用R包 org.Hs.eg.db 进行不同ID之间的转换,将ID转换成最常用的Gene Symbol后,再用R包 HGNChelper来进行Gene Symbol的映射,防止不同的Gene Symbol之间的丢失。
library(org.Hs.eg.db)
library(HGNChelper)
ensemble = c("ENSG00000157873","ENSG00000238164", "ENSG00000115170", "ENSG00000080345", "ENSG00000168702")
#### map gene ids from ENSEMBL to SYMBOL
symbols <- mapIds(org.Hs.eg.db, keys = ensemble, keytype = "ENSEMBL", column="SYMBOL")
symbols
#ENSG00000157873 ENSG00000238164 ENSG00000115170 ENSG00000080345 ENSG00000168702
#"TNFRSF14" NA "ACVR1" "RIF1" "LRP1B"
#### Check SYMBOL
symbols = HGNChelper::checkGeneSymbols(symbols)
symbols
# x Approved Suggested.Symbol
#ENSG00000157873 TNFRSF14 TRUE TNFRSF14
#ENSG00000238164 <NA> FALSE <NA>
#ENSG00000115170 ACVR1 TRUE ACVR1
#ENSG00000080345 RIF1 TRUE RIF1
#ENSG00000168702 LRP1B TRUE LRP1B
网友评论