合并新版TCGA表达矩阵R代码叒更新了—基因名字也给你提出来

作者: 生信交流平台 | 来源:发表于2022-04-22 21:06 被阅读0次

合并新版TCGA表达矩阵R代码叒更新了—基因名字也给你提出来
零代码合并新版TCGA数据库RNAseq表达谱数据
合并新版TCGA表达矩阵R代码叕更新了—RNA类型也给你提出来
基因表达矩阵和生存时间的合并
TCGA的ID转换可以一步到位了
RNASeq
零代码合并TCGA表达谱数据
TCGA泛癌TMB计算
#本月回顾#基因组分析方法教程汇总
一文解决如何下载前体或者成熟体miRNA表达矩阵（TCGA数据库

TCGA数据库在2022年4月初进行更新之后，小编第一时间给大家展示了TCGA数据库的变化，用图文的方式详细介绍了新版TCGA数据库RNAseq数据下载方法。

☞ TCGA数据库悄咪咪更新了—RNAseq没有HTSeq-Counts了

小编也针对新版TCGA数据库格式，为各位小伙伴提供了两种合并新版TCGA中RNAseq表达谱数据的方法

☞R代码合并新版TCGA数据库RNAseq表达谱数据

☞ 零代码合并新版TCGA数据库RNAseq表达谱数据

有小伙伴反馈，合并得到的矩阵里面只有ensembl gene ID，没有基因名字，不方便后续数据分析。

其实小编前面也给大家介绍过☞ 【R语言】基因ID转换，所以将ensembl gene ID转换成gene symbol也是分分钟的事情。

今天小编要给大家介绍一个更简单的方法。其实新版TCGA数据库中的RNAseq数据是自带gene symbol的。仔细看，就在ensembl gene ID的旁边。惊不惊喜，意不意外！

所以小编又双叒叕更新了合并新版TCGA中RNAseq表达矩阵的R代码。在合并的函数中添加了一个参数，symbol，并且默认设置为TRUE。也就是说，这个函数在合并RNAseq表达矩阵的时候除了提取ensembl gene ID以后，也会提取相应的gene名字。

merge_TCGA <- function(metadata, path, data.type, mRNA_expr_type="STAR", symbol=T)

运行起来也很方便

RNA_STAR_Counts=merge_TCGA(metadata=metaMatrix.RNA, 
                     path="RNAseq", 
                     data.type="RNAseq",
                     mRNA_expr_type="STAR",
                     symbol = T
                     )

会得到下面的矩阵。注意：这里的gene名字是有重复的，不可以作为行名。

当然如果你不想要基因名字也是可以的，将symbol设置成 F即可。

RNA_STAR_Counts=merge_TCGA(metadata=metaMatrix.RNA, 
                     path="RNAseq", 
                     data.type="RNAseq",
                     mRNA_expr_type="STAR",
                     symbol = F
                     )

更新后的完整R代码+注释，下载地址参考☟☟☟

☞R代码合并新版TCGA数据库RNAseq表达谱数据