美文网首页R数据科学
5.dplyr处理关系数据(2)

5.dplyr处理关系数据(2)

作者: 木制品_1125 | 来源:发表于2019-07-18 23:05 被阅读0次

二、筛选连接

##semi_join(x, y) 保留x表中与y表中的观测相匹配的所有观测
##anti_join(x, y) 丢弃x表中与y表中的观测相匹配的所有观测
top_dest <- flights %>%
  count(dest, sort = T) %>%
  head(10)  # 筛出最受欢迎的前10个目的地

flights %>%
  filter(dest %in% top_dest$dest)  # 这是一种筛选方法,但很难扩展到多个变量

flights %>%
  semi_join(top_dest)  # 这种筛选方法可以筛选多个变量

flights %>%
  anti_join(planes, by = "tailnum") %>%
  count(tailnum, sort = T)  # 没有匹配到tailnum的统计
需要注意的问题

1.尽量寻找主键,而不是变量组合
2.确保主键没有缺失值
3.检查外键与主键是否相匹配

三、集合操作

intersect(x, y)  # 返回既在x中,又在y中的观测
union(x, y)  # 返x,y中唯一的观测
setdiff(x, y)  # 返回在x表,但不在y表中的观测

df1 <- tribble(
  ~x, ~y,
  1,1,
  2,1,
  3,2
)
df2 <- tribble(
  ~x, ~y,
  1,1,
  1,2,
  2,3
)
intersect(df1, df2)
union(df1, df2)
setdiff(df1, df2)
setdiff(df2, df1)

相关文章

  • 5.dplyr处理关系数据(2)

    二、筛选连接 需要注意的问题 1.尽量寻找主键,而不是变量组合2.确保主键没有缺失值3.检查外键与主键是否相匹配 ...

  • watch,computed和methods的关系

    watch和computed各自处理的数据关系场景不同 1.watch擅长处理的场景:一个数据影响多个数据 2.c...

  • 关键点--数据的拼接

    数据的拼接涉及到了太多的机理分析,如: (1)选择哪些数据; (2)数据如何处理; (3)数据之间的对应关系; 制...

  • 数据结构

    SQL就是访问和处理关系数据库的计算机标准语言 数据模型: 1.层次模型 2.网状模型 3.关系模型 主流数据库 ...

  • mac os 安装redis

    Redis: 特点:(不适合处理关系型数据库的事务acid特性) 1、数据的持久化 2、支持list、set、zs...

  • Memcached --非关系型内存缓存数据库

    一,关系型数据库的瓶颈(mysql, oracle);1.对数据库的高并发读写;2.对海量数据的处理; 二,Mem...

  • 02 关联数据的存储选择

    1 关系型数据库缺少联系 关系型数据库设计之初是为了处理纸质表格以及表格化结构,然后在处理“关系(联系)”上做的却...

  • 数据库的常用术语

    1.信息与数据的关系 信息=数据+数据处理 2.数据独立性 数据独立性指数据库中的数据与用户的应用程序之间是相互独...

  • 学习小组Day6笔记--乔

    数据处理 1.变成合适的数据框 2.缺失数据的处理

  • 资产安全相关知识点

    1、 数据所有者、系统监管员、安全管理员的关系 代表数据所有者处理个人数据的第三方组织称为数据处理者。 和数据处理...

网友评论

    本文标题:5.dplyr处理关系数据(2)

    本文链接:https://www.haomeiwen.com/subject/oncdlctx.html