ID转换--ensembl ID与symbol的对应

作者: weixinsuoxian | 来源:发表于2019-08-17 22:17 被阅读0次

ID转换--ensembl ID与symbol的对应
ID转换专题之在线版1：biomart:ensembl_ID
基因ID类型
R语言作业·中级
[ZHUHAI_Biotrainee]R语言中级作业(全)
R语言小作业-中级
R语言小作业
生信中级10题
gene ID / Gene Symbol / Ensembl
中级题目

R基础，实现ID转换

rm(list = ls())
options(stringsAsFactors = F)

a=read.table("ensembl.txt")#待转换的ID做成TXT文件，读入R
str_split(a$V1,"[.]")
#分割字符串，取a中叫V1的列，把去出列中的元素，
#根据点号进行分割，因为点号代表任何，所以按照其分割应该时加中括号
unlist(str_split(a$V1,"[.]"))
unlist(str_split(a$V1,"[.]",simplify=T))
#加入simplify=T，表示不返回list，而是matrix
a$ensemble_id=unlist(str_split(a$V1,"[.]",simplify=T))[,1]
#[,1]为取第一列的意思，分离然后取出的目的是因为后面需要用到此元素
library(org.Hs.eg.db)
g2s=toTable(org.Hs.egSYMBOL)
g2e=toTable(org.Hs.egENSEMBL)
b=merge(a,g2e,by="ensemble_id",all.x=T)
#a和g2e按照相同的元素ensemble_id关联
d=merge(b,g2s,by="gene_id",all.x=T)
#b和g2s按照相同的元素gene_id关联
d=d[order(d$V1),]#把d按照V1列进行排序
table(d$sensembl_id)[table(d$sensembl_id)>1]
#因为d为拼接的表格，可一个对应几个的问题，所以V1数量多余a，要先把其中重复的去掉
#table(d$sensembl_id)＞1此命令意为sensembl_id列中计数大于1的
#table(d$sensembl_id)[ ]表示对于sensembl_id列中元素计数进行挑选
#table(d$sensembl_id)[table(d$sensembl_id)＞1]的意义为挑选出计数中大于1的那些元素，意思重复的元素
d=d[!duplicated(d$v1),]#!duplicated去掉重复，从而把V1中所有的元素变成唯一
d=d[match(a$V1,d$V1),]#match意为以a的顺序来排列d

网友评论

本文标题：ID转换--ensembl ID与symbol的对应

本文链接：https://www.haomeiwen.com/subject/pkclsctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

ID转换--ensembl ID与symbol的对应

R基础，实现ID转换

相关文章

ID转换--ensembl ID与symbol的对应

ID转换专题之在线版1：biomart:ensembl_ID

基因ID类型

R语言作业·中级

[ZHUHAI_Biotrainee]R语言中级作业(全)

R语言小作业-中级

R语言小作业

生信中级10题

gene ID / Gene Symbol / Ensembl

中级题目

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读