一篇WGCNA文章复现-GSE85589-上集

作者: 小梦游仙境 | 来源:发表于2019-11-21 22:42 被阅读0次

一篇WGCNA文章复现-GSE85589-上集
一篇WGCNA文章复现-GSE85589-中集
一篇WGCNA文章复现-GSE85589-下集
WGCNA-尝试复现
WGCNA（5）：模块导出至其他可视化软件
ggplot做双曲线阈值火山图
复现一篇文章
一篇经典的WGCNA套路分析
WGCNA学习笔记
TCGA数据库中的TNBC病人，lncRNA和mRNA分开做的差

想要复现一篇WGCNA文章中的原图，数据集时GSE85589，前面在下载数据时折腾了好久，原因是呢，我下载的矩阵的miRNA探针就只有2000来个，以为不对劲，于是想要去下载CEL文件，但是又碰到了一系列问题。下面是折腾的过程。其中让我泪崩的就是两个主要解决不了的报错，一个是mirna40CDF，一个是read.celfiles这两个报错，其实到最后也没解决掉，好在后来老大jimmy告诉我miRNA探针就有2000来个是正常的，我才能得以继续，不然要折腾到猴年马月呀！哈哈

下载后的截图如下。

image-20191112072858413

值得注意的是，下载后的dat非常小，dim后只有2000多个探针

image-20191112073458892

image-20191112005930693

于是我想要去去下载CEL文件，下载的代码如下

setwd('./')
library(affy)
dir_cels='GSE85589_RAW'
data <- ReadAffy(celfile.path=dir_cels)
eset <- rma(data)
calls <- mas5calls(data) # get PMA calls
calls <- exprs(calls)
absent <- rowSums(calls == 'A') # how may samples are each gene 'absent' in all samples
absent <- which (absent == ncol(calls)) # which genes are 'absent' in all samples
rmaFiltered <- eset[-absent,] #

不过出现了报错，就是这个mirna40CDF的问题，当时觉得问题不大

image-20191112074606354

既然有报错提示信息，谷歌说用read.celfiles

image-20191112073818452

上面选n没有成功，那么我下次选a。

image-20191112074053533

问我do you 。。。，选yes

image-20191112074121995

然而还是有报错

image-20191112075747172

安了Biocmanager，第一遍选择了‘a’，但是加载不出，安装第二遍，选择了‘n’，依然是不行

image-20191112080058942

换个思路，还是走老大的那个

image-20191112080831816

搜索这个AffyBatch,貌似和下面这个CDF的报错是有关联的,这个batch是批次的意思，那么很有可能和表达量有关，那么再思考一下

image-20191112081140970

这个数据集的sample有下图

image-20191112081432985

后面的PC1才是我们想要的PDAC数据，文章中说总共有88个PDAC数据，我把PDAC数据集中间的省略，直接截图后面的，下面这图就是说还有ICC1啊和SC1的数据

还有normal信息，和文章中的数量是能个对上的

但是依然报错如下，好吧，肯定不是cel文件数量或批次的问题

其实前面谷歌过这个miRNA-4_0的问题,如下，但是并没有人有后面的回答了

所以解决rma的关于AffyBatch的问题，谷歌同样有人问

image-20191112090455242

解答如下，意思是说

image-20191112090546364

getwd()
[1] "/Users/mengmeng/Desktop/再做-WGCNA/GSE85589_RAW"
mydata_GSE85589<-ReadAffy()
rma.data <- affy::rma(mydata_GSE85589)

报错信息如下，又回到了前面CDF和miRNA-4_0的问题，说这个包没安，虽然上面我截了一张图那个外国人说下载这个miRNA-4_0都不行，但是👇给我的报错信息就是没有安装mirna40cdf这个包

image-20191112092516016

提示让选择的时候我选择‘a’，问yes还是no的时候也选择‘yes’，但是就是不给面子

image-20191112093854092

关于搜索过程

第一种是说被赛默飞收购了所有不提供支持服务https://www.biostars.org/p/367835/ 解释说如下

The CDFs for these old Affymetrix arrays can be very difficult to find. A problem was that Affymetrix were purchased by ThermoFisher, and support for products was lost.

I have done a search and found these sources:

https://bitbucket.org/brge/affy2sv/wiki/CytoScan

http://www.affymetrix.com/support/technical/byproduct.affx?product=cytoscan_kit (look at ChAS files, at the bottom)

https://www.thermofisher.com/uk/en/home/life-science/microarray-analysis/microarray-data-analysis/genechip-array-library-files.html

但是通过上面的链接我没获得什么信息，有人回复亦如此：Thanks Kevin. I've downloaded the CDF file from the second link and I've move to the folder with the CELs but errors don't disappear... thanks anyway!

第二种

#还有人这种方法
library(oligo)
dat <- read.celfiles(list.celfiles())
eset <- rma(dat)

但是我的报错如下

image-20191112075747172

针对上么解决谷歌搜索说

rma.data <- affy::rma(gse28403preset)
#但是根本没有这个gse28403preset，我进到这个cel的目录下用affy::rma下载后，就又返回提示mirna40CDF的报错了

image-20191112100828253

第三种从官网获得CDF文件
- 从affymetrix获得CDF文件：http://www.affymetrix.com/support/technical/byproduct.affx?product=miRNAGalaxy

image-20191112101131691

image-20191112101120725

下载后解压放到和cel文件一起的文件夹里，工作目录也是此文件夹，结果报同样mirna40CDF的错。不行

第四种，下载makecdfenv包
- 同样的在https://support.bioconductor.org/p/57041/也搜索到类似的回答

image-20191112101245485

这个还没试，这个回答里内容很多。不过其实一开始下载的矩阵就是对的，那就不纠结了，前面的当成是一个探索的过程吧，可以直接看下集，其实还有个中集，也是个记录过程，没耐心烦儿的直接看下集，哈哈哈。

最后友情宣传生信技能树

生物信息学“义诊”
生物信息学"拍卖会"
全国巡讲:R基础，Linux基础和RNA-seq实战演练 : 预告：12月28-30长沙站
广州珠江新城GEO数据挖掘滚动开班
DNA及RNA甲基化数据分析与课题设计

网友评论

WGCNA专刊

本文标题：一篇WGCNA文章复现-GSE85589-上集

本文链接：https://www.haomeiwen.com/subject/yfvxwctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

一篇WGCNA文章复现-GSE85589-上集

关于搜索过程

最后友情宣传生信技能树

相关文章