美文网首页
R语言合并TCGA中CNV矩阵

R语言合并TCGA中CNV矩阵

作者: 生信交流平台 | 来源:发表于2022-10-22 21:36 被阅读0次

    上一期给大家介绍了如何从TCGA数据库下载拷贝数变异(CNV)数据

    如何下载TCGA拷贝数变异(CNV)数据

    今天我们来聊一聊如何将每一样本的CNV数据,合并成一个矩阵,方便后续的处理和分析。前面小编已经跟大家介绍过

    R代码合并新版TCGA数据库RNAseq表达谱数据

    零代码合并新版TCGA数据库RNAseq表达谱数据

    R代码合并TCGA体细胞突变数据

    R代码合并TCGA数据库中DNA甲基化数据

    合并TCGA表达谱数据,生存状态和生存时间

    其实合并CNV数据的思路跟前面☞ R代码合并新版TCGA数据库RNAseq表达谱数据 的思路是一致的。在正式合并之前,我们先打开一个样本的CNV数据看看,是什么样的格式。

    第一列是基因的Ensembl基因ID,第二列是对应的基因名字,第3-5列为该基因在染色体上的位置。第6-8列为该基因的拷贝数。我们知道人是二倍体,一般来说一个基因2个拷贝是正常的,如果>2,那么就发生了拷贝数增加,如果<2,那么就发生了拷贝数减少。

    对于TCGA-CHOL这个项目,我们一共有36个样本。所以我们需要先从下载的sample sheet文件中获取每个样本CNV文件的路径和名字。下图就是我们的sample sheet,前两列分别为存放CNV文件的文件夹的名字,和CNV文件的名字。


    然后通过循环依次去读取这36个文件中的信息,最终按列合并起来得到最后的CNV矩阵。如下表所示,每一行是一个基因,每一列是一个样本。格子里的数字代表这个基因在这个样本里的拷贝数。


    完整R代码+详细注释
    R语言合并TCGA中CNV矩阵

    相关文章

      网友评论

          本文标题:R语言合并TCGA中CNV矩阵

          本文链接:https://www.haomeiwen.com/subject/egpbzrtx.html