直接举例说明吧
# 创建向量
a1 = c("1","2","3")
a2 = c("1","2","3")
a3 = c("11","22","33")
a4 = c("1","NA","3")
a5 = c("1",NA,"3")
a6 = c(NA,NA,NA)
a7 = c("a","b","c")
# 合并为数据框
data=rbind(a1,a2,a3,a4,a5,a6,a7)
data=as.data.frame(data)
str(data) #数据集详细信息
class(data) #数据类型
dim(data) #数据集的维度

数据集
# 列命名
# 对所有列命名
names(data)=c("A","B","C")
colnames(data)=c("A1","B1","C1")
# 对某一列命名
colnames(data)[2]=c("B2")
names(data)[2]=c("B3")
data
# 最后列名字变成了A1 B3 C1

data
# 删除含NA的行
# 注意“NA”与NA,前者是字符,后者才是缺失标记
na.omit(data)

na.omit(data)
# 判断某列的重复值,并取出非重复
data[!duplicated(data$A1),]
library(dplyr)
# 如果存在重复行,则仅保留第一行
distinct(data)
# (上式也可以写成)根据所有列删除重复的行(完全一样的观测值):
data %>% distinct()
# 根据特定列删除重复值
data %>% distinct(A1, .keep_all = TRUE) # 保留所有的列,与直接使用distinct一样
data %>% distinct(A1, .keep_all = F) #仅保留A1列
# 根据多列删除重复值
data %>% distinct(A1, C1, .keep_all = TRUE) # 选项.kep_all用于保留数据中的所有变量。
# 取某列的唯一值
unique(data[,1])
unique(data) #同distinct效果

判断某列的重复值,并取出非重复
网友评论