美文网首页
TCGA的ensmbl怎么转换?

TCGA的ensmbl怎么转换?

作者: Stone_Stan4d | 来源:发表于2018-07-11 11:11 被阅读101次

    一切不给出原始数据的推文都是耍流氓。而一切不敲代码的初学者都是杨白劳。今天的问题出现在这里。我用Biolinks包下载好TCGA的RawCounts数据之后。用Ensembl官网的人基因组注释文件并转换成表格,对RawCounts的Ensembl好转换成基因名,发现有写基因名有多个Ensembl对应。然后我查看TCGA的pipelines,看到它是用GENECODE进行基因注释的。并且附带有注释文件,在这里点击注释文件即可跳转链接。

    image.png
    下载蓝框内,即可得到今天要操作的原始文件。
    后面进入R的世界。
    library(refGenome)
    ens <- ensemblGenome()
    read.gtf(ens, "gencode.v22.chr_patch_hapl_scaff.annotation.gtf")
    
    source("https://bioconductor.org/biocLite.R")
    biocLite("rtracklayer")
    biocLite("SummarizedExperiment")
    gtf1 <- rtracklayer::import('gencode.v22.chr_patch_hapl_scaff.annotation.gtf')
    gtf_df <- as.data.frame(gtf1)
    head(gtf_df)
    ensem2symbol <- gtf_df[gtf_df$type == 'gene',c('gene_id', 'gene_type', 'gene_name', 'source')]
    rownames(ensem2symbol) <- substr(ensem2symbol$gene_id, 1, 15)
    
    save(ensem2symbol, file = 'ensem2symbol.Genecode.v22.rdata')
    
    
    ensem2symbol$gene_name[table(ensem2symbol$gene_name) != 1]
    ensem2symbol[ensem2symbol$gene_name == 'CFB', ]
    

    这样就得到了转换表格。在需要转换的代码里,导入这个文件即可。

    相关文章

      网友评论

          本文标题:TCGA的ensmbl怎么转换?

          本文链接:https://www.haomeiwen.com/subject/vhthpftx.html