想要复现一篇WGCNA文章中的原图,数据集时GSE85589,前面在下载数据时折腾了好久,原因是呢,我下载的矩阵的miRNA探针就只有2000来个,以为不对劲,于是想要去下载CEL文件,但是又碰到了一系列问题。下面是折腾的过程。其中让我泪崩的就是两个主要解决不了的报错,一个是
mirna40CDF
,一个是read.celfiles
这两个报错,其实到最后也没解决掉,好在后来老大jimmy告诉我miRNA探针就有2000来个是正常的,我才能得以继续,不然要折腾到猴年马月呀!哈哈
下载后的截图如下。

值得注意的是,下载后的dat非常小,dim后只有2000多个探针


于是我想要去去下载CEL文件,下载的代码如下
setwd('./')
library(affy)
dir_cels='GSE85589_RAW'
data <- ReadAffy(celfile.path=dir_cels)
eset <- rma(data)
calls <- mas5calls(data) # get PMA calls
calls <- exprs(calls)
absent <- rowSums(calls == 'A') # how may samples are each gene 'absent' in all samples
absent <- which (absent == ncol(calls)) # which genes are 'absent' in all samples
rmaFiltered <- eset[-absent,] #
不过出现了报错,就是这个mirna40CDF
的问题,当时觉得问题不大

既然有报错提示信息,谷歌说用read.celfiles

上面选n
没有成功,那么我下次选a
。

问我do you 。。。,选yes

然而还是有报错

安了Biocmanager,第一遍选择了‘a’,但是加载不出,安装第二遍,选择了‘n’,依然是不行

换个思路,还是走老大的那个

搜索这个AffyBatch
,貌似和下面这个CDF的报错是有关联的,这个batch是批次的意思,那么很有可能和表达量有关,那么再思考一下

这个数据集的sample有下图

后面的PC1才是我们想要的PDAC数据,文章中说总共有88个PDAC数据,我把PDAC数据集中间的省略,直接截图后面的,下面这图就是说还有ICC1啊和SC1的数据
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmqztj0j30i80widms.jpg" alt="image-20191112081705273" style="zoom:33%;" />
还有normal信息,和文章中的数量是能个对上的
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vms47npj30g80ocwie.jpg" alt="image-20191112082741576" style="zoom:50%;" />
但是依然报错如下,好吧,肯定不是cel文件数量或批次的问题
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmvcpdnj313c0a0jw0.jpg" alt="image-20191112082834811" style="zoom:50%;" />
其实前面谷歌过这个miRNA-4_0的问题,如下,但是并没有人有后面的回答了
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vmx7kdpj31d40oan4p.jpg" alt="image-20191112083022667" style="zoom:50%;" />
所以解决rma的关于AffyBatch的问题,谷歌同样有人问

解答如下,意思是说

getwd()
[1] "/Users/mengmeng/Desktop/再做-WGCNA/GSE85589_RAW"
mydata_GSE85589<-ReadAffy()
rma.data <- affy::rma(mydata_GSE85589)
报错信息如下,又回到了前面CDF和miRNA-4_0的问题,说这个包没安,虽然上面我截了一张图那个外国人说下载这个miRNA-4_0都不行,但是👇给我的报错信息就是没有安装mirna40cdf这个包

提示让选择的时候我选择‘a’,问yes还是no的时候也选择‘yes’,但是就是不给面子

关于搜索过程
- 第一种 是说被赛默飞收购了 所有不提供支持服务https://www.biostars.org/p/367835/ 解释说如下
The CDFs for these old Affymetrix arrays can be very difficult to find. A problem was that Affymetrix were purchased by ThermoFisher, and support for products was lost.
I have done a search and found these sources:
http://www.affymetrix.com/support/technical/byproduct.affx?product=cytoscan_kit (look at ChAS files, at the bottom)
但是通过上面的链接我没获得什么信息,有人回复亦如此:Thanks Kevin. I've downloaded the CDF file from the second link and I've move to the folder with the CELs but errors don't disappear... thanks anyway!
- 第二种
#还有人这种方法
library(oligo)
dat <- read.celfiles(list.celfiles())
eset <- rma(dat)
但是我的报错如下

针对上么解决谷歌搜索说
rma.data <- affy::rma(gse28403preset)
#但是根本没有这个gse28403preset,我进到这个cel的目录下用affy::rma下载后,就又返回提示mirna40CDF的报错了

- 第三种从官网获得
CDF
文件


下载后解压放到和cel文件一起的文件夹里,工作目录也是此文件夹,结果报同样mirna40CDF
的错。不行
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vnlzqlej30m406wdgy.jpg" alt="image-20191112104438390" style="zoom:50%;" />
<img src="https://tva1.sinaimg.cn/large/006y8mN6gy1g95vnjs9v2j30vs0be43f.jpg" alt="image-20191112104749712" style="zoom:50%;" />
- 第四种,下载makecdfenv包
- 同样的在https://support.bioconductor.org/p/57041/也搜索到类似的回答

这个还没试,这个回答里内容很多。不过其实一开始下载的矩阵就是对的,那就不纠结了,前面的当成是一个探索的过程吧,可以直接看下集
,其实还有个中集
,也是个记录过程,没耐心烦儿的直接看下集
,哈哈哈。
最后友情宣传生信技能树
-
全国巡讲:R基础,Linux基础和RNA-seq实战演练 : 预告:12月28-30长沙站
网友评论