美文网首页
2021-08-11-TCGA-symbol-ENSGid-转换

2021-08-11-TCGA-symbol-ENSGid-转换

作者: FFwizard | 来源:发表于2021-08-11 19:08 被阅读0次

    关于TCGA基因ID转换的一些问题。

    image.png
    之前id转换是用的R包org.Hs.eg.db进行转换的,后面因为其收录的ENSGMBL_id只有不到三万个。没法全部注释到TCGA的RNA_seq数据,TCGA的RNA_seq数据有六万多条。
    image.png
    于是我就去genecode上下载最新的GTF文件,可以注释到近六万条的基因,但是还是有一部分ENSGMBL_id没有注视到,但是当时其实已经注视到了90%了,我也就没有管了。
    gtf3 <- rtracklayer::import('gencode.v38.chr_patch_hapl_scaff.annotation.gtf')
    gtf_df <- as.data.frame(gtf3)
    gtf_df<-gtf_df[gtf_df$type=='gene',]
    GTF<-gtf_df[,c('gene_id','gene_name')]
    GTF$gene_id<-substr(GTF$gene_id,1,15)
    GTF<-GTF[!duplicated(GTF$gene_id),]
    exp<-read_tsv('TCGA-LUAD.htseq_fpkm.tsv')
    table(substr(exp$Ensembl_ID,1,15)%in%GTF$gene_id)
    
    image.png
    然后今天偶然间发现,UCSC_XENA上有全部RNA_seq的注释文件,就是我上面指出来的那个,下载下来以后能够完全匹配,但是它这个文件是根据gengcodeV22版本的。现在genecode已经更新到V38了。

    从UCSC把表达矩阵和注释文件下下来读取

    exp<-read_tsv('TCGA-LUAD.htseq_fpkm.tsv')
    index<-read.table('gencode.v22.annotation.gene.probeMap',header = T)
    dim(exp)
    dim(index)
    
    image.png

    #######于是我比较了下两个版本的注释文件,发现,把那些基因注释有分歧的地方挑了出来,下回到具体的基因分析的时候,都查一查,以genecard上的为准。差异分析的时候可以使用genecodeV22的版本注释先

    相关文章

      网友评论

          本文标题:2021-08-11-TCGA-symbol-ENSGid-转换

          本文链接:https://www.haomeiwen.com/subject/weicbltx.html