前面小编给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据,miRNAseq数据,体细胞突变数据以及DNA甲基化数据
以及如何合并成矩阵
☞ 【视频讲解】R代码合并新版TCGA中RNAseq表达谱矩阵
☞ 【视频讲解】R代码合并新版TCGA中miRNA表达谱矩阵
☞ 【R实战】使用maftools复现SCI文章中的体细胞突变瀑布图
今天小编接着上次的内容,给大家讲解如何使用R代码来合并TCGA数据库中DNA甲基化数据。整体思路跟前面合并RNAseq数据,miRNA-seq数据是一致的。
1.读取DNA甲基化sample sheet中的内容,在☞ 如何从TCGA数据库下载DNA甲基化数据中我们已经详细介绍过了如何下载sample sheet。
sample sheet文件中第一列为存放甲基化数据的文件夹,第二列为存放甲基化数据的文件名。
2.利用R的循环,依次去读取每个甲基化文件中的内容。该文件只有两列,第一列为450K芯片的探针ID,每一个对应一个CpG位点,后面是代表甲基化水平的beta值,从0-1,0表示完全非甲基化,1表示完全甲基化。
3. 按照列将每个样本的DNA甲基化数据合并起来,因为每个文件中探针的ID好都是一样的,并且顺序也是一致的。以TCGA-CHOL这套数据为例,一共有45个样本,每个样本有485577甲基化位点的数据。那么合并完成之后,我们就可以得到一个485577行,45列的矩阵。如下图所示
我们可以看到,有些甲基化位点的甲基化水平在某些样本中为NA,我们也可以合并完成之后,删除包含NA的行,即删除这个甲基化探针。
完整合并DNA甲基化数据的R代码+详细注释☟☟☟
网友评论