美文网首页bioinformatics
R代码合并TCGA体细胞突变数据

R代码合并TCGA体细胞突变数据

作者: 生信交流平台 | 来源:发表于2022-07-28 20:54 被阅读0次

    上次通过图文给大家讲解了如何从TCGA数据库下载体细胞突变的数据

    如何从TCGA数据库下载体细胞突变数据(somatic mutation)

    前面我们也讲过,如何从TCGA数据库下载RNAseq和miRNA-seq的数据。大家应该对TCGA数据库里面数据的格式有了一定的了解。

    新版TCGA数据库RNAseq数据下载

    新版TCGA数据库miRNA数据下载

    无论是RNAseq,miRNAseq还是体细胞突变的数据,都是单个的文件。也就是每一个样本会用一个单独的文件来存放相应的数据。如果我们想得到如下图所示的矩阵,就需要通过循环去读取每一个文件里面的内容,然后进行合并。

    前面已经跟大家分享过如何通过R代码或者是使用零代码的工具来合并RNAseq和miRNA-seq的表达矩阵。

    【视频讲解】R代码合并新版TCGA中RNAseq表达谱矩阵

    【视频讲解】R代码合并新版TCGA中miRNA表达谱矩阵

    零代码合并新版TCGA中RNAseq和miRNA表达谱

    合并体细胞突变数据的思路,其实跟前面讲到的合并表达矩阵的思路大体类似,当然也有一个很重要的不同之处。

    1)读取sample sheet里面的内容,获取每个MAF(mutation annotation format)文件的路径,如下图所示。


    2)循环读取每一个MAF文件里面的内容


    3)将每个文件里面的内容按行贴起来,这个跟前面合成表达矩阵是不一样的。合并表达矩阵是按列来合并。最终我们可以得到下面这样一张表格。


    基于这张表格的数据,我们就可以绘制前面提到过的瀑布图。关于这张表格里面每一列的含义,我会在下面的文章里面给大家做详细的介绍。

    完整合并R代码+详细注释☟☟☟

    R代码合并TCGA体细胞突变数据

    相关文章

      网友评论

        本文标题:R代码合并TCGA体细胞突变数据

        本文链接:https://www.haomeiwen.com/subject/uuoxwrtx.html