美文网首页
大数据分析(三):使用R读取CSV数据

大数据分析(三):使用R读取CSV数据

作者: 做一个专注的技术人 | 来源:发表于2017-05-15 15:38 被阅读1968次

    CSV数据

    逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。

    CSV也是一种常用的数据格式,其特点是纯文本,读取和存储简单。目前很多BI系统或者大数据平台也支持直接对接CSV文件。比如Hadoop Hive平台默认的数据存储格式就是CSV。

    在R中读取和保存CSV文件非常简单,不需要像读取EXCEL文件那样下载其他的package,因为R本身就支持CSV文件的读取。依然以学生信息数据为例,

    CSV数据

    因为CSV文件为纯文本格式,所以可以方便的用记事本进行编辑,数据分隔符默认为逗号(EXCEL的打开可就没有这么方便咯,有探索精神的童鞋可以用记事本编辑下EXCEL试试_)。

    直接在R环境中输入如下命令:

    > stu_data <- read.csv(file="download/stu.csv", header=T)
    
    

    上述命令中的file参数表示csv文件的路径,header参数表示是否将csv文件的第一行作为列名,header参数默认是T(true)。如果没有错误提示则表示读取成功,然后可以用class(stu_data)来查看stu_data的数据类型:

    > class(stu_data)
    
    

    也可以用head(stu_data)来查看stu_data中的数据内容:

    > head(stu_data)
    
    
    R中查看CSV数据

    以上结果为header=T时,第一行数据会被作为列名,而不是作为实际的数据。如果header=F时,那结果会是下面的样子:

    header=F时的数据

    大家可以看上面两幅图中的第一行的数据,就明白header参数设置的意义了。

    至此,使用R语言读取CSV中的数据就完成了。后续就可以利用R来处理这些数据了。

    • 使用R也可以非常方便的将数据保存为CSV文件,命令为:
    >write.csv(x=stu_data, file="stu_bak.csv", row.names=F, quote=F)
    

    通过以上命令可以将数据写入csv文件,row.names设置是否将行号写入csv文件,quote设置是否在数据中加入引号。

    相关文章

      网友评论

          本文标题:大数据分析(三):使用R读取CSV数据

          本文链接:https://www.haomeiwen.com/subject/uhehxxtx.html