dplyr包

作者: JackieZhang1990 | 来源:发表于2017-12-18 15:48 被阅读14次

R包 hadley大神之作, 速度快,简洁,链式操作

  1. 数据集类型转换
    tbl_df()
    在使用dplyr处理前,建议将数据集转换为tbl对象

  2. 行筛选
    filter() slice()按指定逻辑条件筛选出符合要求的子集合,支持条件组合

    slice(data,2L) 等价于 filter(data,row_number()==2L)
    filter(data, condition)

  3. 排序
    arrange() 默认为升序排列 desc()

    arrange(data,col1,col2,...)
    arrange(data,desc(col))

  4. 变量选择
    select() 用列名来选择子集合
    筛选变量特殊方式 start_with, end_with, contains, matches, one_of, num_range, everything

  5. 重命名
    rename()

  6. 变形
    对已有列进行运算后添加为新列
    mutate()新结果+老结果
    transmute() 新结果

  7. 去重
    distinct()

  8. 汇总
    summarise()
    mean, sd, max, min, n数, n_distinct重后行数,first last

  9. 采样
    sample_n()随机抽取指定数目的样本
    sample_frac()随机抽取指定百分比的样本
    默认无放回抽取,replacement=TRUE 为可放回抽样

  10. 分组
    group_by()

  11. 连接join
    inner_join(table1,table2,by = , )
    left_join()
    right_join()
    full_join()
    semi_join()
    anti_join()

  12. 集合操作set
    intersect(x,y) 交集
    union(x,y) 并集, 去重
    union_all(x,y) 并集,不去重
    setdiff(x,y) 差集
    setequal(x,y) 判断是否相等

  13. 条件语句
    if_else(condition, true, false)

  14. case when

    case_when(condition1~result1,
    condition2~result2)

相关文章

网友评论

      本文标题:dplyr包

      本文链接:https://www.haomeiwen.com/subject/qfsmwxtx.html