到这里我们移师R,由于R是一个可视化的软件,我们下载Windows版的R就好了。这里我们讲一讲一些必要R包的安装,最后把上一步的表达矩阵做一个合并(这一步用excel也可以)。
下载和安装R
这里我们需要三个软件,Rproject,Rstudio,Rtools。这里需要注意,安装路径不能有中文,否则无法运行,建议直接默认路径就好。
我们接着打开Rstudio,工具栏tool<global option<general选择一下R的默认工作路径和R的源文件
安装一些R包
对于我这个无任何计算机基础的人来说,更习惯把R当成一个用命令行操作的excel来学习,在这个语境下,我们就可以理解R包的作用。excel处理数据依赖公式和函数,R亦然,R包就是这些函数分门别类的集合。因为之后要用到好几个R包。我们先用基础的安装方式安装一个ggplot2
install.pachages("ggplot2")
对于生信相关的软件,我们用bioconductor进行安装,首先访问bioconductor官网安装bioconductor
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install(version = "3.11")
这之后我们就可以在bioconductor网站搜索我们要找的包,复制代码进行安装了。这里我们需要的包有:clusterProfiler、stringr、DOSE、DESeq2、apeglm、
矩阵合并
我们先导入一下count文件
control1<-read.table("SRR3589959.count",sep = "\t",col.names = c("gene_id","control1"))
control2<-read.table("SRR3589961.count",sep = "\t",col.names = c("gene_id","control2"))
treat1<-read.table("SRR3589960.count",sep = "\t",col.names = c("gene_id","treat1"))
treat2<-read.table("SRR3589962.count",sep = "\t",col.names = c("gene_id","treat2"))
#前提是Rstudio的工作目录和count文件在同一个文件夹,否则需要完整路径
接下来用进行合并和一些整理工作
raw_count <- merge(merge(control1, control2, by="gene_id"), merge(treat1, treat2, by="gene_id")) #merge函数整合
raw_count_filt <- raw_count[-1:-5,] #删除前五行
ENSEMBL <- gsub("\\.\\d*", "", raw_count_filt$gene_id)
row.names(raw_count_filt) <- ENSEMBL #转换一下gene id,变成整数
接下来看几个具体的基因吧,基因的编号可以去uniprot查找
AKAP95 <- raw_count_filt[rownames(raw_count_filt)=="ENSMUSG00000024045",]
AKAP95
网友评论