R语言批量读文件

作者: 不会生信哟 | 来源:发表于2020-11-20 10:54 被阅读0次

杀杀
前两天一个同学问了一个批量读数据(文件)的问题
感觉现在分析测序数据的话,在R中一次性读取多个文件的功能还是挺需要用到的
决定总结一下下

现在在我的文件夹里有一堆数据文件(大于5个),每个文件打开以后都有相似的行名。需求是将所有文件都读进来,成为很多个矩阵,然后根据相同的行名把它们合并起来以便后续的使用。 文件夹里的文件以及其中一个文件的样子

总不能写n行read.csv…balabala…去读取,那太麻烦了
于是决定使用批量读数据
首先我们要获取这个文件夹里所有的文件名字以便读取

##获取ins_size_bacth2文件夹下面的所有文件的文件名
filelist <- list.files("ins_size_bacth2")  
##去掉文件名中 . 后面的文件格式尾缀
##这么做是因为文件名称就是样本名称,之后我们需要用这个list来做合并后的矩阵列名
filelist_sampleid <- as.matrix(gsub(".ins_size","", filelist))

接下来我们需要构建读文件的路径

files <- paste("./ins_size_bacth2/",filelist,sep="") ##files为所有的路径

ps: 在做这种批量操作时还是有必要先花时间测试一个样本是否能够成功,然后再去做批量的循环,这样也能方便自己找bug

因此我们先试着读取一个文件

test <- read.delim(file=files[1],header=F,sep="",row.names = 1) ##小测试

这里因为例子中的文件格式比较特殊,所以使用的读取函数是read.delim,如果是.csv或.txt等格式,也可以替换成read.csv, read.table等函数。

好了测试通过,接下来开始批量读文件

label <- matrix(c(0:8000),ncol = 1)  ##建立需要的行名
targetgene01 <- label

for (i in 1:(length(files)))
{
new_data<-as.matrix(read.delim(file=files[i],header=F,sep="",row.names = 1))
temp <- as.matrix(new_data[match(label,rownames(new_data)),1])
targetgene01 <- cbind(targetgene01,temp) ##合并,然后替换
}

rownames(targetgene01) <- targetgene01[,1]  #第一列需要设置成行名
targetgene01 <- targetgene01[,-1]  ##第一列可以删掉
colnames(targetgene01)<-filelist2  ##设置准备好的列名
targetgene01[which(is.na(targetgene01) == T)] <- 0  ##没有match到的是NA,替换成0

需要注意的是,合并文件的时候,需要注意你是要取所有文件中行名的交集还是并集,或者最后你是否有一个统一的行名来规整所有文件。(当然如果你确定每个文件的行名都是相同的,就可以直接cbind),我遇到过需要取交集的情况,可以写一个循环对每个文件的行名做交集,用最终的交集文件去match出所有你要的行然后合并。

但是这个例子中,有的文件的行名是1-4000,有的是5000-8000,存在非常大的差异,而需求是最后整合成一个行名为0-8000的矩阵,因此我先建立一个0-8000的列作为行名,把每个文件和这列进行一个match操作,然后未match到的填充为0。

其实没有很难的部分,主要是需要读取文件夹中的所有文件名,然后循环读取就行了。

相关文章

  • R语言批量读文件

    -by杀杀 前两天一个同学问了一个批量读数据(文件)的问题感觉现在分析测序数据的话,在R中一次性读取多个文件的功能...

  • R语言批量合并Excel文件

    离开实验室的时候一个同学在合并他们班的某个汇总表。常规操作,一个一个的复制粘贴的。我就想,这个肯定可以用编程搞定啊...

  • R解析fastp输出的json文件

    目的:需要解析fastp输出的一批json文件,从中提取一些信息。使用2个R包:R语言解析json批量读取json参考

  • R语言批量修改文件名

    最近工作有个小需求,把文件名前加一个统一的字符,比如“R语言_1.jpg, R语言_2.jpg, R语言_3.jp...

  • R语言:DNA序列比对后计算遗传距离(P-distance)

    在R语言中找到了计算遗传距离的函数dist.dna();但是不知道在R里面如何利用循环批量处理文件计算遗传距离。想...

  • R语言批量导入文件夹下的文件

    一、文件分布 二、命令实现 # 批量读取文件夹内电子券文件 file_names<- list.files("D:...

  • 去掉“双引号”

    R语言批量去掉“双引号” 在GEO读取矩阵文件,或者其他文件的时候常常会碰到下面这样的情况 表格中的字符串带上了双...

  • R语言批量合并

    用空文件夹装好需要合并的文件。 容易遇到的问题: 1.在导入文件时,可能会出现第一列列名为“X.U.FEFF.xx...

  • R语言-如何批量阅读文件+预处理

    实际工作中,有时需要同时读取很多csv,但又不能一个一个的read.csv上回分享了assign函数解决了这个问题...

  • R语言批量读取文件与合并结果

    批量读入文件,文件的格式可以为csv,txt,tsv等。以批量读取tsv格式的文件为例。 1.数据的准备 从USC...

网友评论

    本文标题:R语言批量读文件

    本文链接:https://www.haomeiwen.com/subject/furciktx.html