R语言批量读取文件与合并结果

作者: Ashu | 来源:发表于2022-05-27 21:34 被阅读0次

R语言批量读取文件与合并结果
R语言的文件读取小技能
linux&R批量合并多个组织单细胞表达矩阵文件
R语言批量合并Excel文件
批量文件读取合并
R语言批量合并
R解析fastp输出的json文件
文件操作
去掉“双引号”
3D轨迹动画 R语言rayshaderanimate包

批量读入文件，文件的格式可以为csv，txt，tsv等。以批量读取tsv格式的文件为例。

1.数据的准备

从USCS Xena网站上选几个癌症种类的表达矩阵下载，新建一个文件夹叫raw_data，把这些表达矩阵放到raw_data文件夹里。

2.批量数据（文件）的读入

首先看读入的文件是什么格式，然后选择适合R包里的函数读取。这里文件的后缀是tsv，用readr包里的read_tsv函数。下载的文件是压缩格式，首先用read_tsv函数试试读取解压后和未解压的的单个文件看是否成功，以及是否需要调参数。
批量读取文件，选择什么方式来实现，一般会想到用for循环，这里用lapply函数，可以对列表或是向量元素批量操作。

##### （1）选择文件读取函数
library(readr)
a=read_tsv(file = "TCGA-ACC.htseq_counts.tsv")
##读取解压后的文件
b=read_tsv(file = "TCGA-ACC.htseq_counts.tsv.gz")
##能成功读取未解压的文件。
####（2）批量读取压缩文件
fs=list.files('./raw_data/')
##新建一个列表，把要读取的全部文件放到列表里，使用lapply批量读取，服务结果赋值给TGCA_files_list
fs
TGCA_files_list=lapply(fs, function(x){
  a=read_tsv(file.path('./raw_data/',x))
})
##得到的结果为一个列表，每个元素为一个表达矩阵
class(TGCA_files_list)
#[1] "list"

根据读入的文件格式，选择合适的函数，有的文件特殊，要求函数加一些参数。如用用read.tabe()去读某些txt格式的文件，需要考虑是否加参数：header = T，check.names = F，row.names=1，刚读进来，不加参数发现不对劲，可以一个个参数去试。先读进一个文件，调好参数后再批量读入。

3.合并读取结果

查看读入数据框的行与列内容是否相同，按行或是列合并数据框。读入得到的列表里每个元素为一个癌症的表达矩阵，对列表取子集，查看行与列。

##提取列表的每个元素（每种癌症的表达矩阵）
ACC=TGCA_files_list[[1]]
CHOL=TGCA_files_list[[2]]
DLBC=TGCA_files_list[[3]]
ESCA=TGCA_files_list[[4]]
KIPP=TGCA_files_list[[5]]
MESO=TGCA_files_list[[6]]
READ=TGCA_files_list[[7]]
##查看每种癌症表打矩阵的维度
dim(ACC);dim(CHOL);dim(DLBC);dim(ESCA);dim(KIPP);dim(MESO);dim(READ)
# [1] 60488    80
# [1] 60488    46
# [1] 60488    49
# [1] 60488   174
# [1] 60488   322
# [1] 60488    87
# [1] 60488   178
##这几个数据框的行数相同

打开列表的元素（数据框），第一列的列名与内容相同，按列合并，合并列表里的元素。

TGCA_files_count=do.call(cbind,TGCA_files_list)
dim(TGCA_files_count)
##[1] 60488   936

###do.call可以批量合并列表里的元素，cbind函数是对数据框按列合并，前提是行的数量相同，cbind在这是do.call函数里的一个参数。
###理解上一句代码
cbind(TGCA_files_list[[1]],
      TGCA_files_list[[2]],   
      TGCA_files_list[[3]],
      TGCA_files_list[[4]],
      TGCA_files_list[[5]],
      TGCA_files_list[[6]],
      TGCA_files_list[[4]])