[资源]hgnc给出的人类基因的超全信息文件

作者: 小洁忘了怎么分身 | 来源:发表于2018-12-24 10:03 被阅读32次

https://www.genenames.org/download/statistics-and-files/
这里有一个链接的地址：
ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt
找到这个，是因为一个需求，找到基因与基因家族之间的对应关系。结果发现这个表格真的是好全，得到的远远比想要的多。
首先看一下日期：

（今天是12.25）更新于四天前

表格太大，所以看下他的统计信息。。。
把这个表格下载到工作目录，在R斯丢丢中用read.csv()读取后，用我神奇的dumd函数来看就好

dumd <- function(x){
colname <- vector("character")
count <- vector("integer")
for(i in 1:ncol(x)){
  colname[i] = colnames(x)[[i]]
  count[i]=nrow(x[!duplicated(x[,i]),])
}
df <- tibble(colname,count) %>%
  arrange(desc(count))
print(df)
}
dumd(hgnc)

表格给出了各列的列名及非重复值数。
各种id，还有基因名/类型/基因家族等等各种信息，既然他成了数据框，下一步当然是任我宰割，只因为不知道他的存在才费了好多功夫！实战中得到的教训，多查少造轮子。

网友评论

本文标题：[资源]hgnc给出的人类基因的超全信息文件

本文链接：https://www.haomeiwen.com/subject/wisakqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[资源]hgnc给出的人类基因的超全信息文件

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读