关于TCGA基因ID转换的一些问题。
image.png之前id转换是用的R包org.Hs.eg.db进行转换的,后面因为其收录的ENSGMBL_id只有不到三万个。没法全部注释到TCGA的RNA_seq数据,TCGA的RNA_seq数据有六万多条。
image.png于是我就去genecode上下载最新的GTF文件,可以注释到近六万条的基因,但是还是有一部分ENSGMBL_id没有注视到,但是当时其实已经注视到了90%了,我也就没有管了。
gtf3 <- rtracklayer::import('gencode.v38.chr_patch_hapl_scaff.annotation.gtf')
gtf_df <- as.data.frame(gtf3)
gtf_df<-gtf_df[gtf_df$type=='gene',]
GTF<-gtf_df[,c('gene_id','gene_name')]
GTF$gene_id<-substr(GTF$gene_id,1,15)
GTF<-GTF[!duplicated(GTF$gene_id),]
exp<-read_tsv('TCGA-LUAD.htseq_fpkm.tsv')
table(substr(exp$Ensembl_ID,1,15)%in%GTF$gene_id)
image.png
然后今天偶然间发现,UCSC_XENA上有全部RNA_seq的注释文件,就是我上面指出来的那个,下载下来以后能够完全匹配,但是它这个文件是根据gengcodeV22版本的。现在genecode已经更新到V38了。
从UCSC把表达矩阵和注释文件下下来读取
exp<-read_tsv('TCGA-LUAD.htseq_fpkm.tsv')
index<-read.table('gencode.v22.annotation.gene.probeMap',header = T)
dim(exp)
dim(index)
image.png
#######于是我比较了下两个版本的注释文件,发现,把那些基因注释有分歧的地方挑了出来,下回到具体的基因分析的时候,都查一查,以genecard上的为准。差异分析的时候可以使用genecodeV22的版本注释先
网友评论