美文网首页
R数据重复、NA处理的技巧

R数据重复、NA处理的技巧

作者: MYS_bio_man | 来源:发表于2021-06-15 12:44 被阅读0次

    直接举例说明吧

    # 创建向量
    a1 = c("1","2","3")
    a2 = c("1","2","3")
    a3 = c("11","22","33")
    a4 = c("1","NA","3")
    a5 = c("1",NA,"3")
    a6 = c(NA,NA,NA)
    a7 = c("a","b","c")
    
    
    # 合并为数据框
    data=rbind(a1,a2,a3,a4,a5,a6,a7)
    data=as.data.frame(data)
    
    str(data) #数据集详细信息
    class(data) #数据类型
    dim(data) #数据集的维度
    
    数据集
    # 列命名
    # 对所有列命名
    names(data)=c("A","B","C")
    colnames(data)=c("A1","B1","C1")
    # 对某一列命名
    colnames(data)[2]=c("B2")
    names(data)[2]=c("B3")
    data
    # 最后列名字变成了A1 B3 C1
    
    data
    # 删除含NA的行
    # 注意“NA”与NA,前者是字符,后者才是缺失标记
    na.omit(data)
    
    na.omit(data)
    # 判断某列的重复值,并取出非重复
    data[!duplicated(data$A1),]
    library(dplyr)
    # 如果存在重复行,则仅保留第一行
    distinct(data) 
    # (上式也可以写成)根据所有列删除重复的行(完全一样的观测值):
    data %>% distinct()
    # 根据特定列删除重复值
    data %>% distinct(A1, .keep_all = TRUE) # 保留所有的列,与直接使用distinct一样
    data %>% distinct(A1, .keep_all = F) #仅保留A1列
    # 根据多列删除重复值
    data %>% distinct(A1, C1, .keep_all = TRUE) # 选项.kep_all用于保留数据中的所有变量。
    
    # 取某列的唯一值
    unique(data[,1]) 
    unique(data) #同distinct效果
    
    判断某列的重复值,并取出非重复

    相关文章

      网友评论

          本文标题:R数据重复、NA处理的技巧

          本文链接:https://www.haomeiwen.com/subject/slrzeltx.html