2021-08-11-TCGA-symbol-ENSGid-转换

作者: FFwizard | 来源:发表于2021-08-11 19:08 被阅读0次

2021-08-11-TCGA-symbol-ENSGid-转换
第三章 JavaScript中的数据间类型的转换
js基础篇：类型转换
js总结（2.转换）
回顾Date.0402(类型转换、运算)
四、SQL函数④(其他函数)
学习记录
C语言类型转换
static_cast, dynamic_cast,const_
ffmpeg分解与复用

关于TCGA基因ID转换的一些问题。

image.png

之前id转换是用的R包org.Hs.eg.db进行转换的，后面因为其收录的ENSGMBL_id只有不到三万个。没法全部注释到TCGA的RNA_seq数据，TCGA的RNA_seq数据有六万多条。

image.png

于是我就去genecode上下载最新的GTF文件，可以注释到近六万条的基因，但是还是有一部分ENSGMBL_id没有注视到，但是当时其实已经注视到了90%了，我也就没有管了。

gtf3 <- rtracklayer::import('gencode.v38.chr_patch_hapl_scaff.annotation.gtf')
gtf_df <- as.data.frame(gtf3)
gtf_df<-gtf_df[gtf_df$type=='gene',]
GTF<-gtf_df[,c('gene_id','gene_name')]
GTF$gene_id<-substr(GTF$gene_id,1,15)
GTF<-GTF[!duplicated(GTF$gene_id),]
exp<-read_tsv('TCGA-LUAD.htseq_fpkm.tsv')
table(substr(exp$Ensembl_ID,1,15)%in%GTF$gene_id)

image.png

然后今天偶然间发现，UCSC_XENA上有全部RNA_seq的注释文件，就是我上面指出来的那个，下载下来以后能够完全匹配，但是它这个文件是根据gengcodeV22版本的。现在genecode已经更新到V38了。

从UCSC把表达矩阵和注释文件下下来读取

exp<-read_tsv('TCGA-LUAD.htseq_fpkm.tsv')
index<-read.table('gencode.v22.annotation.gene.probeMap',header = T)
dim(exp)
dim(index)

image.png

#######于是我比较了下两个版本的注释文件，发现，把那些基因注释有分歧的地方挑了出来，下回到具体的基因分析的时候，都查一查，以genecard上的为准。差异分析的时候可以使用genecodeV22的版本注释先

网友评论

本文标题：2021-08-11-TCGA-symbol-ENSGid-转换

本文链接：https://www.haomeiwen.com/subject/weicbltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2021-08-11-TCGA-symbol-ENSGid-转换

关于TCGA基因ID转换的一些问题。

之前id转换是用的R包org.Hs.eg.db进行转换的，后面因为其收录的ENSGMBL_id只有不到三万个。没法全部注释到TCGA的RNA_seq数据，TCGA的RNA_seq数据有六万多条。

于是我就去genecode上下载最新的GTF文件，可以注释到近六万条的基因，但是还是有一部分ENSGMBL_id没有注视到，但是当时其实已经注视到了90%了，我也就没有管了。

然后今天偶然间发现，UCSC_XENA上有全部RNA_seq的注释文件，就是我上面指出来的那个，下载下来以后能够完全匹配，但是它这个文件是根据gengcodeV22版本的。现在genecode已经更新到V38了。

相关文章

2021-08-11-TCGA-symbol-ENSGid-转换

第三章 JavaScript中的数据间类型的转换

js基础篇：类型转换

js总结（2.转换）

回顾Date.0402(类型转换、运算)

四、SQL函数④(其他函数)

学习记录

C语言类型转换

static_cast, dynamic_cast,const_

ffmpeg分解与复用

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读