TCGA数据库在2022年4月初进行更新之后,小编第一时间给大家展示了TCGA数据库的变化,用图文的方式详细介绍了新版TCGA数据库RNAseq数据下载方法。
☞ TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了
小编也针对新版TCGA数据库格式,为各位小伙伴提供了两种合并新版TCGA中RNAseq表达谱数据的方法
有小伙伴反馈,合并得到的矩阵里面只有ensembl gene ID,没有基因名字,不方便后续数据分析。
其实小编前面也给大家介绍过☞ 【R语言】基因ID转换,所以将ensembl gene ID转换成gene symbol也是分分钟的事情。
今天小编要给大家介绍一个更简单的方法。其实新版TCGA数据库中的RNAseq数据是自带gene symbol的。仔细看,就在ensembl gene ID的旁边。惊不惊喜,意不意外!
所以小编又双叒叕更新了合并新版TCGA中RNAseq表达矩阵的R代码。在合并的函数中添加了一个参数,symbol,并且默认设置为TRUE。也就是说,这个函数在合并RNAseq表达矩阵的时候除了提取ensembl gene ID以后,也会提取相应的gene名字。
merge_TCGA <- function(metadata, path, data.type, mRNA_expr_type="STAR", symbol=T)
运行起来也很方便
RNA_STAR_Counts=merge_TCGA(metadata=metaMatrix.RNA,
path="RNAseq",
data.type="RNAseq",
mRNA_expr_type="STAR",
symbol = T
)
会得到下面的矩阵。注意:这里的gene名字是有重复的,不可以作为行名。
当然如果你不想要基因名字也是可以的,将symbol设置成 F即可。
RNA_STAR_Counts=merge_TCGA(metadata=metaMatrix.RNA,
path="RNAseq",
data.type="RNAseq",
mRNA_expr_type="STAR",
symbol = F
)
更新后的完整R代码+注释,下载地址参考☟☟☟
网友评论