创建dataframe:
ob<-data.frame(x=c(1:97),y=accuracy)
- 注意 是“=”号不是“<-”号,否则会创建以x,y 为名的变量
ggplot
NULL 与NA
- NULL 不占用空间,NA占用空间
- 注意定义新变量置空时使用NULL
筛选子集的几种方法
- df[x,y]直接选取特定的行或列;条件筛选时,which 函数筛选行,select 参数筛选列
newdf<-df[which(colname1>3), select=c("colname1","colname4","colname7")]
- subset(df, row_condition,select=...)筛选,共三个参数,第一个为进入筛选的源数据,第二个为行条件,第三个为列条件
select_result<-subset(df, sex=="f"&&age>35,select=c(name,sex,score, course)
- filter() dplyr 包下的函数,其中能对返回值为TRUE的值进行筛选,注意条件无需用&连接,表示或关系时,可用“|”连接
new_set<-filter(df, month==1, type_f=="3")
#等价于
new_set<-df%>%filter(month==1,type_f=="3")
连接数据集
- merge()函数实现类似sql 的连接操作,注意列名带引号
conn_dataset<- merge(df1,df2,by.x="name",by.y="name_2") #inner join
conn_dataset<- merge(df1,df2,by.x="name",by.y="name_2", all.x=TRUE)# left join
conn_dataset<- merge(df1,df2,by.x="name",by.y="name_2",all.y=TRUE)#right join
conn_dataset<- merge(df1,df2,by.x="name",by.y="name_2", all=TRUE)#outer join
网友评论