美文网首页R语言学习笔记
《R语言实战》学习笔记---Chapter4(8) 基础数据管理

《R语言实战》学习笔记---Chapter4(8) 基础数据管理

作者: RSP小白之路 | 来源:发表于2023-08-16 03:25 被阅读0次

    除了使用R默认的数据操作语句进行数据的操作,还可以使用结构化查询语句(SQL),这在R中可以使用sqldf包,使用这个包可以利用sql语句进行数据的处理。

    SQLDF包

    要使用,首先要下载并安装这个包,使用install.packages("sqldf"),然后便可以使用sqldf()函数在数据框上使用SQLSELECT语句。
    用下面的例子说明sqldf的使用,我也只是SQL小白,懂得不多,简单使用一下。

    SQL高手请别见笑。

    library(sqldf)
    newdf <- sqldf("select * from mtcars where carb =1 order by mpg",  row.names = TRUE)
    newdf
                    mpg cyl  disp  hp drat    wt  qsec vs am gear carb
    Valiant        18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
    Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
    Toyota Corona  21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
    Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
    Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
    Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
    Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
    

    上面语句的从内置数据集mtcars中选取变量carb = 1的所有变量,并根据变量mpg排序,row.names = TRUE是保留行名。
    再适用一个例子:

    >  sqldf("select avg(mpg) as avg_mpg, avg(disp) as avg_disp, gear, cyl from mtcars where cyl in (4, 6) group by gear")
       avg_mpg avg_disp gear cyl
    1 20.33333 201.0333    3   6
    2 24.53333 123.0167    4   6
    3 25.36667 120.1333    5   4
    

    从内置数据集mtcars中,首先根据变量gear分组,选取变量cyl等于 46的所有变量计算其mpg disp的平均值作为变量,以及变量gearcyl
    可以看到sqldf包是一个实用的数据管理辅助工具。

    小结

    Chapter4讲解了大量基础知识,包括缺失值、日期值和处理方式;接着学习了如何确定一个对象的数据类型以及转换函数;学习了创建新变量,重编码,重命名,排序,数据和其它数据的合并以及变量和观测的保留和剔除。

    相关文章

      网友评论

        本文标题:《R语言实战》学习笔记---Chapter4(8) 基础数据管理

        本文链接:https://www.haomeiwen.com/subject/bmkwpdtx.html