美文网首页
[资源]hgnc给出的人类基因的超全信息文件

[资源]hgnc给出的人类基因的超全信息文件

作者: 小洁忘了怎么分身 | 来源:发表于2018-12-24 10:03 被阅读32次

    https://www.genenames.org/download/statistics-and-files/
    这里有一个链接的地址:
    ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt
    找到这个,是因为一个需求,找到基因与基因家族之间的对应关系。结果发现这个表格真的是好全,得到的远远比想要的多。
    首先看一下日期:


    (今天是12.25)更新于四天前

    表格太大,所以看下他的统计信息。。。
    把这个表格下载到工作目录,在R斯丢丢中用read.csv()读取后,用我神奇的dumd函数来看就好

    dumd <- function(x){
    colname <- vector("character")
    count <- vector("integer")
    for(i in 1:ncol(x)){
      colname[i] = colnames(x)[[i]]
      count[i]=nrow(x[!duplicated(x[,i]),])
    }
    df <- tibble(colname,count) %>%
      arrange(desc(count))
    print(df)
    }
    dumd(hgnc)
    

    表格给出了各列的列名及非重复值数。
    各种id,还有基因名/类型/基因家族等等各种信息,既然他成了数据框,下一步当然是任我宰割,只因为不知道他的存在才费了好多功夫!实战中得到的教训,多查少造轮子。


    相关文章

      网友评论

          本文标题:[资源]hgnc给出的人类基因的超全信息文件

          本文链接:https://www.haomeiwen.com/subject/wisakqtx.html