美文网首页
R数据重复、NA处理的技巧

R数据重复、NA处理的技巧

作者: MYS_bio_man | 来源:发表于2021-06-15 12:44 被阅读0次

直接举例说明吧

# 创建向量
a1 = c("1","2","3")
a2 = c("1","2","3")
a3 = c("11","22","33")
a4 = c("1","NA","3")
a5 = c("1",NA,"3")
a6 = c(NA,NA,NA)
a7 = c("a","b","c")


# 合并为数据框
data=rbind(a1,a2,a3,a4,a5,a6,a7)
data=as.data.frame(data)

str(data) #数据集详细信息
class(data) #数据类型
dim(data) #数据集的维度
数据集
# 列命名
# 对所有列命名
names(data)=c("A","B","C")
colnames(data)=c("A1","B1","C1")
# 对某一列命名
colnames(data)[2]=c("B2")
names(data)[2]=c("B3")
data
# 最后列名字变成了A1 B3 C1
data
# 删除含NA的行
# 注意“NA”与NA,前者是字符,后者才是缺失标记
na.omit(data)
na.omit(data)
# 判断某列的重复值,并取出非重复
data[!duplicated(data$A1),]
library(dplyr)
# 如果存在重复行,则仅保留第一行
distinct(data) 
# (上式也可以写成)根据所有列删除重复的行(完全一样的观测值):
data %>% distinct()
# 根据特定列删除重复值
data %>% distinct(A1, .keep_all = TRUE) # 保留所有的列,与直接使用distinct一样
data %>% distinct(A1, .keep_all = F) #仅保留A1列
# 根据多列删除重复值
data %>% distinct(A1, C1, .keep_all = TRUE) # 选项.kep_all用于保留数据中的所有变量。

# 取某列的唯一值
unique(data[,1]) 
unique(data) #同distinct效果
判断某列的重复值,并取出非重复

相关文章

网友评论

      本文标题:R数据重复、NA处理的技巧

      本文链接:https://www.haomeiwen.com/subject/slrzeltx.html