R数据重复、NA处理的技巧

作者: MYS_bio_man | 来源:发表于2021-06-15 12:44 被阅读0次

R数据重复、NA处理的技巧
R常用的基本函数
12-1 tidyr dplyr stringr
填充NA值为上一个数值
R语言第二章数据处理③删除重复数据
R语言第二章数据处理④数据框排序和重命名
R语言第二章数据处理⑤数据框列的转化和计算
R语言第二章数据处理⑦dplyr包（2）列处理
R语言第二章数据处理⑥dplyr包（1）列选取
R语言第二章数据处理⑨缺失值判断和填充

直接举例说明吧

# 创建向量
a1 = c("1","2","3")
a2 = c("1","2","3")
a3 = c("11","22","33")
a4 = c("1","NA","3")
a5 = c("1",NA,"3")
a6 = c(NA,NA,NA)
a7 = c("a","b","c")


# 合并为数据框
data=rbind(a1,a2,a3,a4,a5,a6,a7)
data=as.data.frame(data)

str(data) #数据集详细信息
class(data) #数据类型
dim(data) #数据集的维度

数据集

# 列命名
# 对所有列命名
names(data)=c("A","B","C")
colnames(data)=c("A1","B1","C1")
# 对某一列命名
colnames(data)[2]=c("B2")
names(data)[2]=c("B3")
data
# 最后列名字变成了A1 B3 C1

data

# 删除含NA的行
# 注意“NA”与NA，前者是字符，后者才是缺失标记
na.omit(data)

na.omit(data)

# 判断某列的重复值，并取出非重复
data[!duplicated(data$A1),]
library(dplyr)
# 如果存在重复行，则仅保留第一行
distinct(data) 
# （上式也可以写成）根据所有列删除重复的行（完全一样的观测值）：
data %>% distinct()
# 根据特定列删除重复值
data %>% distinct(A1, .keep_all = TRUE) # 保留所有的列，与直接使用distinct一样
data %>% distinct(A1, .keep_all = F) #仅保留A1列
# 根据多列删除重复值
data %>% distinct(A1, C1, .keep_all = TRUE) # 选项.kep_all用于保留数据中的所有变量。

# 取某列的唯一值
unique(data[,1]) 
unique(data) #同distinct效果

判断某列的重复值，并取出非重复

网友评论

本文标题：R数据重复、NA处理的技巧

本文链接：https://www.haomeiwen.com/subject/slrzeltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

R数据重复、NA处理的技巧

直接举例说明吧

相关文章

R数据重复、NA处理的技巧

R常用的基本函数

12-1 tidyr dplyr stringr

填充NA值为上一个数值

R语言第二章数据处理③删除重复数据

R语言第二章数据处理④数据框排序和重命名

R语言第二章数据处理⑤数据框列的转化和计算

R语言第二章数据处理⑦dplyr包（2）列处理

R语言第二章数据处理⑥dplyr包（1）列选取

R语言第二章数据处理⑨缺失值判断和填充

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读