R语言读数据

作者: 不会生信哟 | 来源:发表于2021-05-18 09:53 被阅读0次

R语言基础--数据类型-总结
day5 阿来
生信学习小组Day5笔记-lamyusam_
R语言第二章数据处理④数据框排序和重命名
R语言第二章数据处理⑤数据框列的转化和计算
R语言第二章数据处理⑦dplyr包（2）列处理
R语言第二章数据处理⑥dplyr包（1）列选取
R语言第二章数据处理⑨缺失值判断和填充
R语言第二章数据处理⑧数据采样和离散化
R语言第二章数据处理(9)数据合并

杀杀

记录一些R语言读入数据的方法还有可能遇到的问题~

读入数据时，需要先了解数据文件的类型（也就是看后缀）。一般就能够知道数据的类型和分隔符等信息。
另外，如果能够用excel预览一下数据的话，可以先看看数据是否有行列名。有些数据会有两列的行名，如基因名-基因id-表达值······，特殊的数据需要额外的处理。

还需要注意一下matrix和data.frame的数据结构，matrix中只能有一种数据类型，这意味着如果在读入数据时不进行合适的处理，R会将数值强行读成字符型，造成读数据的错误。

当读的是表达谱/测序数据时还有很重要的一点，我以前就很喜欢在R处理数据前先用excel打开，进行一些改动然后保存，再读取。但是有些基因会被excel错误地保存成日期格式

excel（右），实际数据（右）

当用excel存储过之后，再用R处理时，会提示你行名重复，其实根本没有重复。因此建议不要用excel保存这种数据，一定要编辑可以使用notepad++或者ultra edit等软件。

-----正题分割线-----
read.xx的函数是R的内置函数，可以直接读取，并且设置一些参数

txt文件：

file <- read.table("filename.txt",header = T,row.names = 1,sep = "\t")
#第一行设为列名，第一列设为行名，sep默认是空格，\t意为tab符

csv文件（请不要存储为逗号分隔-utf-8，编码方式不一样，会报错的）：

file <- read.csv("filename.txt",header = T,row.names = 1)
#第一行设为列名，第一列设为行名，sep默认逗号

这些函数读取后都默认为data.frame，如果需要矩阵请使用as.matrix转换。
一定要赋值，不然R语言会把大大的矩阵print出来。

read.delim

如果是没怎么见过的类型：
这个函数会自动识别你的分隔符，并且把第一行设为列名，但是没办法指定行名，需要读入以后自己设置

file <- read.delim("filename.???")

fread

跟read.delim类似，可以读各种类型的文件以及非常大的文件：

library(data.table)
file <- fread("filename.???")

读取后默认是一种data.table的数据类型，需要通过as.matrix/as.data.frame转换后使用。

逐行读取文件

像perl语言一样，逐行读取数据具有很大的优势
（万一文件超多行对吧）对于那种几个G的文件，全部读进来可能会导致你的电脑死机，所以我们可以先读几百行进来看看，或者分批读取，这样不会占用电脑太大内存，读取方法和上文的一次性读入有所不同-随便找个文件举例：

#首先要读入一个列名（如果有列名的话）
temp <- file("CGGA.mRNAseq_325.RSEM-genes.20200506.txt", "r")
name <- t(as.matrix(strsplit(readLines(temp, 1), split='\t')[[1]]))

接下来继续读入数据，比如说我现在想读4行，因为文件是txt类型，所以分隔设为\t

read1 <- readLines(temp, 4)
data <- read.table(text = read1, sep='\t', col.names = colname1,row.names = 1)

看看结果

读取excel文件：

library(xlsx)
library(readxl)
data <- as.data.frame(read_excel("./Merge_Test/data/01_metadata_DNA.xlsx",sheet = k,col_names = T))

读取excel多个sheet的文件：

第一种：把excel中所有sheet的表格读入为data.frame，并分别命名为每个sheet的名称

#先读取一个xlsx文件中所有sheet的名称
sheetnames <- readxl::excel_sheets("./Merge_Test/data/01_metadata_DNA.xlsx")

for(k in (1:length(sheetnames)))
{
temp <- as.data.frame(read_excel("./Merge_Test/data/01_metadata_DNA.xlsx",sheet = k,col_names = T))
assign(unlist(sheetnames)[k],temp)
}

---请忽略硬核打码

第二种：把excel中所有sheet的表格读入为矩阵，并放进一个list中

library(xlsx)
library(rJava)
library(xlsxjars)
library(readxl)
library(XLConnect)
library(rio)
library(tidyverse)
list_result <- list()
for(k in (1:length(sheetnames)))
{
   temp <- as.data.frame(read_excel("./Merge_Test/data/01_metadata_DNA.xlsx",sheet = k,col_names = T))
   list_result <- c(list_result,list(temp))
}
list_result2 <- list_result %>% set_names(sheetnames)

批量读文件：

R语言批量读文件
批量读excel的xlsx文件原理是和读其它文件一样的。

学到了新的会持续更新哟~

网友评论

R语言写不出来啊！

本文标题：R语言读数据

本文链接：https://www.haomeiwen.com/subject/lkfjjltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

R语言读数据

txt文件：

csv文件（请不要存储为逗号分隔-utf-8，编码方式不一样，会报错的）：

read.delim

fread

逐行读取文件

读取excel文件：

读取excel多个sheet的文件：

批量读文件：

相关文章

R语言基础--数据类型-总结

day5 阿来

生信学习小组Day5笔记-lamyusam_

R语言第二章数据处理④数据框排序和重命名

R语言第二章数据处理⑤数据框列的转化和计算

R语言第二章数据处理⑦dplyr包（2）列处理

R语言第二章数据处理⑥dplyr包（1）列选取

R语言第二章数据处理⑨缺失值判断和填充

R语言第二章数据处理⑧数据采样和离散化

R语言第二章数据处理(9)数据合并

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

R语言写不出来啊！