用到
GFOLD
是因为我拿到了没有重复的样本,所以试试,第一次做,欢迎大家和我讨论
参考文献是:
GFOLD
大部分安装参考这篇博客
我也用到了CORNAS
来分析,详见这篇我的CORNAS摸索
我用到的一些软件↓
Oracle VM VirtualBox虚拟机
XShell
Notepad++
主要遇到的一些问题是一开始对linux
操作不熟悉,后面慢慢就好多了
第一步:做出两个输入文件
要注意GFOLD
的文件格式↓
1)需要两个输入文件,一个相当于是是control
,另一个相当于是case组
文件内容为5
列:
第1
列:GeneSymbol
第2
列:GeneName
,我的数据中这两列是一样的,都是例如"IGF2-AS
"、"TPTEP1"
第3
列:Read Count
基因的Count数 ,我用的就是rawdata里的值
第4
列:Gene exon length
基因的外显子长度
第5
列:RPKM
基因的RPKM值
如果我们只是计算差异分析,第4、5列可以自己随便填充数值,但是不可以省略!否则软件会报错!
我的数据大概如下↓

这样就差不多做好了两个输入文件,我一般会用
RStudio
再统一一下列名以防万一
#新生成的文件名我一般不改,就是 raw_data_Vec , raw_data_LSH 反正后面还会改掉
file1 = "你的路径/XXX.csv"
raw_data_Vec <- read.csv(file1, stringsAsFactors=FALSE)
file2 = "你的路径/YYY.csv"
raw_data_LSH <- read.csv(file2, stringsAsFactors=FALSE)
#统一列名别出错
colnames(raw_data_Vec) <- c("GeneSymbol", "GeneName", "Read Count", "Gene exon length", "RPKM")
colnames(raw_data_LSH) <- c("GeneSymbol", "GeneName", "Read Count", "Gene exon length", "RPKM")
#导出文件,这个文件名我也不改,不然在 Linux 里改好麻烦
write.table(raw_data_Vec, file="你的路径/Sample1Vec.read_cnt", row.names=F, col.names=F, quote=F, sep="\t")
write.table(raw_data_LSH, file="你的路径/Sample2LSH.read_cnt", row.names=F, col.names=F, quote=F, sep="\t")
结果是↓

第二步:需要把这两个文件传到Linux
中,这就是Linux
基本操作了,不赘述
第三步:需要在Linux
里运行GFOLD
程序,建议先在RStudio
中写好粘贴过去,不然修改不好总是出错
gfold diff -s1 /你的路径/Sample1Vec.read_cnt -s2 /你的路径/Sample2LSH.read_cnt -o /你的路径/Sample1VSSample2.diff
其中:
diff
表示计算差异
-s1
表示输入的第一个样本
-s2
表示输入的第二个样本
这里一定要注意顺序!!
-o
表示后面接输出文件的名字,我一般也不会改
剩下的就交给GFOLD
去算吧,然后你会得到↓

这个时候会发现会出现一个结果文件,我一般会把它从服务器上下载下来,之后可能用
Excel
或是其他的工具筛选一下就好了
输出文件为
6
行,不过如果一开始后两行是自己随便输入的话,那么这个结果里的后两行也没有什么意义
这样其实就结束了GFOLD
,有一些注意事项都会写在结果文件的开头几行,比如
GFOLD = 0
是 不能 视作有差异的基因,所以一开始就把它们筛选掉比较好;
GFOLD > 0
表示上调,GFOLD < 0
表示下调
我记得在一篇文献中看到过GFOLD绝对值 > 1
视为有明显?差异,可能记忆有误,大家可以自己查查😁
我对比了一下GFOLD
和CORNAS
这两种方法的计算结果,总体都差不多,但是有一些GFOLD = 0
的基因在CORNAS
中是有差异的,如果想要很精确的结果的话,可能可以考虑结合二者的结果进行分析
网友评论