R代码合并TCGA数据库中DNA甲基化数据

作者: 生信交流平台 | 来源:发表于2022-08-24 21:44 被阅读0次

前面小编给大家介绍了新版的TCGA数据库，通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据，miRNAseq数据，体细胞突变数据以及DNA甲基化数据

以及如何合并成矩阵

今天小编接着上次的内容，给大家讲解如何使用R代码来合并TCGA数据库中DNA甲基化数据。整体思路跟前面合并RNAseq数据，miRNA-seq数据是一致的。

1.读取DNA甲基化sample sheet中的内容，在☞ 如何从TCGA数据库下载DNA甲基化数据中我们已经详细介绍过了如何下载sample sheet。

sample sheet文件中第一列为存放甲基化数据的文件夹，第二列为存放甲基化数据的文件名。

2.利用R的循环，依次去读取每个甲基化文件中的内容。该文件只有两列，第一列为450K芯片的探针ID，每一个对应一个CpG位点，后面是代表甲基化水平的beta值，从0-1，0表示完全非甲基化，1表示完全甲基化。

3. 按照列将每个样本的DNA甲基化数据合并起来，因为每个文件中探针的ID好都是一样的，并且顺序也是一致的。以TCGA-CHOL这套数据为例，一共有45个样本，每个样本有485577甲基化位点的数据。那么合并完成之后，我们就可以得到一个485577行，45列的矩阵。如下图所示

我们可以看到，有些甲基化位点的甲基化水平在某些样本中为NA，我们也可以合并完成之后，删除包含NA的行，即删除这个甲基化探针。

完整合并DNA甲基化数据的R代码+详细注释☟☟☟

R代码合并TCGA数据库中DNA甲基化数据

网友评论

本文标题：R代码合并TCGA数据库中DNA甲基化数据

本文链接：https://www.haomeiwen.com/subject/lkvzgrtx.html

R代码合并TCGA数据库中DNA甲基化数据