美文网首页WGCNA专刊
一篇WGCNA文章复现-GSE85589-上集

一篇WGCNA文章复现-GSE85589-上集

作者: 小梦游仙境 | 来源:发表于2019-11-21 22:42 被阅读0次

想要复现一篇WGCNA文章中的原图,数据集时GSE85589,前面在下载数据时折腾了好久,原因是呢,我下载的矩阵的miRNA探针就只有2000来个,以为不对劲,于是想要去下载CEL文件,但是又碰到了一系列问题。下面是折腾的过程。其中让我泪崩的就是两个主要解决不了的报错,一个是mirna40CDF,一个是read.celfiles这两个报错,其实到最后也没解决掉,好在后来老大jimmy告诉我miRNA探针就有2000来个是正常的,我才能得以继续,不然要折腾到猴年马月呀!哈哈

下载后的截图如下。

image-20191112072858413

值得注意的是,下载后的dat非常小,dim后只有2000多个探针

image-20191112073458892 image-20191112005930693

于是我想要去去下载CEL文件,下载的代码如下

setwd('./')
library(affy)
dir_cels='GSE85589_RAW'
data <- ReadAffy(celfile.path=dir_cels)
eset <- rma(data)
calls <- mas5calls(data) # get PMA calls
calls <- exprs(calls)
absent <- rowSums(calls == 'A') # how may samples are each gene 'absent' in all samples
absent <- which (absent == ncol(calls)) # which genes are 'absent' in all samples
rmaFiltered <- eset[-absent,] #

不过出现了报错,就是这个mirna40CDF的问题,当时觉得问题不大

image-20191112074606354

既然有报错提示信息,谷歌说用read.celfiles

image-20191112073818452

上面选n没有成功,那么我下次选a

image-20191112074053533

问我do you 。。。,选yes

image-20191112074121995

然而还是有报错

image-20191112075747172

安了Biocmanager,第一遍选择了‘a’,但是加载不出,安装第二遍,选择了‘n’,依然是不行

image-20191112080058942

换个思路,还是走老大的那个

image-20191112080831816

搜索这个AffyBatch,貌似和下面这个CDF的报错是有关联的,这个batch是批次的意思,那么很有可能和表达量有关,那么再思考一下

image-20191112081140970

这个数据集的sample有下图

image-20191112081432985

后面的PC1才是我们想要的PDAC数据,文章中说总共有88个PDAC数据,我把PDAC数据集中间的省略,直接截图后面的,下面这图就是说还有ICC1啊和SC1的数据

<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmqztj0j30i80widms.jpg" alt="image-20191112081705273" style="zoom:33%;" />

还有normal信息,和文章中的数量是能个对上的

<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vms47npj30g80ocwie.jpg" alt="image-20191112082741576" style="zoom:50%;" />

但是依然报错如下,好吧,肯定不是cel文件数量或批次的问题

<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmvcpdnj313c0a0jw0.jpg" alt="image-20191112082834811" style="zoom:50%;" />

其实前面谷歌过这个miRNA-4_0的问题,如下,但是并没有人有后面的回答了

<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmx7kdpj31d40oan4p.jpg" alt="image-20191112083022667" style="zoom:50%;" />

所以解决rma的关于AffyBatch的问题,谷歌同样有人问

image-20191112090455242

解答如下,意思是说

image-20191112090546364
getwd()
[1] "/Users/mengmeng/Desktop/再做-WGCNA/GSE85589_RAW"
mydata_GSE85589<-ReadAffy()
rma.data <- affy::rma(mydata_GSE85589)

报错信息如下,又回到了前面CDF和miRNA-4_0的问题,说这个包没安,虽然上面我截了一张图那个外国人说下载这个miRNA-4_0都不行,但是👇给我的报错信息就是没有安装mirna40cdf这个包

image-20191112092516016

提示让选择的时候我选择‘a’,问yes还是no的时候也选择‘yes’,但是就是不给面子

image-20191112093854092

关于搜索过程

The CDFs for these old Affymetrix arrays can be very difficult to find. A problem was that Affymetrix were purchased by ThermoFisher, and support for products was lost.

I have done a search and found these sources:

  • 第二种
#还有人这种方法
library(oligo)
dat <- read.celfiles(list.celfiles())
eset <- rma(dat)

但是我的报错如下

image-20191112075747172

针对上么解决谷歌搜索说

rma.data <- affy::rma(gse28403preset)
#但是根本没有这个gse28403preset,我进到这个cel的目录下用affy::rma下载后,就又返回提示mirna40CDF的报错了
image-20191112100828253 image-20191112101131691 image-20191112101120725

下载后解压放到和cel文件一起的文件夹里,工作目录也是此文件夹,结果报同样mirna40CDF的错。不行

<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vnlzqlej30m406wdgy.jpg" alt="image-20191112104438390" style="zoom:50%;" />

<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vnjs9v2j30vs0be43f.jpg" alt="image-20191112104749712" style="zoom:50%;" />

image-20191112101245485

这个还没试,这个回答里内容很多。不过其实一开始下载的矩阵就是对的,那就不纠结了,前面的当成是一个探索的过程吧,可以直接看下集,其实还有个中集,也是个记录过程,没耐心烦儿的直接看下集,哈哈哈。

最后友情宣传生信技能树

相关文章

  • 一篇WGCNA文章复现-GSE85589-上集

    想要复现一篇WGCNA文章中的原图,数据集时GSE85589,前面在下载数据时折腾了好久,原因是呢,我下载的矩阵的...

  • 一篇WGCNA文章复现-GSE85589-中集

    前面已经在老大jimmy的帮助下,知道我下载的表达矩阵是没有问题的,那么我就直接往下做好了,不过在读取id转换的文...

  • 一篇WGCNA文章复现-GSE85589-下集

    前面由于对miRNA的探针数目没有正确的理解,以为数据一直没有下载完全,折腾了一番。后来经老大jimmy提醒了,m...

  • WGCNA-尝试复现

    对2016年的WGCNA文章尝试复现,效果不太好,但是过了一遍流程还不错!文章名称:伴 HBV 感染性肝癌调控枢纽...

  • WGCNA(5):模块导出至其他可视化软件

    这篇文章是WGCNA系列的最后一篇,其余见链接:WGCNA(1):R包安装及数据导入清洗 - 简书 (jiansh...

  • ggplot做双曲线阈值火山图

    接着我们之前复现过的一篇NC文章(复现《nature communications》散点小提琴图+蜜蜂图[http...

  • 复现一篇文章

    前言 此复现过程全程由kinesin老师指导,过程有点复杂,如发现问题,请及时简书联系我,我及时更改,主要复现标准...

  • 一篇经典的WGCNA套路分析

    内容来自:一篇典型的WGCNA文章解读 - 生信人(生物信息学)问答平台

  • WGCNA学习笔记

    本篇代码参考文章:1.生信菜鸟团:一文学会WGCNA分析2.WGCNA(加权基因共表达网络分析)3.WGCNA分析...

  • TCGA数据库中的TNBC病人,lncRNA和mRNA分开做的差

    题目主要是来源于要对一篇文章中的图复现,其实已经在公众号上的七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步...

网友评论

    本文标题:一篇WGCNA文章复现-GSE85589-上集

    本文链接:https://www.haomeiwen.com/subject/yfvxwctx.html