美文网首页数据-R语言-图表-决策-Linux-Python
R数据科学(八)reader包数据导入

R数据科学(八)reader包数据导入

作者: 子鹿学生信 | 来源:发表于2018-11-17 10:16 被阅读1次
    library(tidyverse)
    

    读取文件:
    read_csv() 读取逗号分隔文件、 read_csv2() 读取分号分隔文件、 read_tsv() 读取制表符分隔文件、 read_delim() 可以读取使用任意分隔符的文件。
    read_fwf() 读取固定宽度的文件。既可以使用 fwf_widths() 函数按照宽度来设定域,也可
    以使用 fwf_positions() 函数按照位置来设定域。
    read_csv() 函数的第一个参数是最重要的,该参数是要读取的文件的路径:

    有时文件开头会有好几行元数据。你可以使用 skip = n 来跳过前 n 行;或者使用
    comment = "#" 来丢弃所有以 # 开头的行

    数据没有列名称。可以使用 col_names = FALSE 来通知 read_csv() 不要将第一行作为列
    标题,而是将各列依次标注为 X1 至 Xn:

    "\n" 是非常便捷的快捷方式,用于添加新行。

    na。它设定使用哪个值(或哪些值)来表示文件中的缺失值

    # heights <- read_csv("data/heights.csv")
    read_csv("a,b,c
    1,2,3
    4,5,6")
    
    read_csv("The first line of metadata
    The second line of metadata
    x,y,z
    1,2,3", skip = 2)
    
    read_csv("# A comment I want to skip
    x,y,z100
    1,2,3", comment = "#")
    
    read_csv("1,2,3\n4,5,6", col_names = FALSE)
    
    read_csv("1,2,3\n4,5,6", col_names = c("x", "y", "z"))
    
    read_csv("a,b,c\n1,2,.", na = ".")
    

    read_csv函数与read.csv函数相比的优势是:
    1.速度较快(约快 10 倍)
    2.它们可以生成 tibble,并且不会将字符向量转换为因子,不使用行名称,也不会随意
    改动列名称。
    3.更易于重复使用。

    8.2.2 练习
    (1) 如果一个文件中的域是由“|”分隔的,那么应该使用哪个函数来读取这个文件?
    (2) 除了 file、 skip 和 comment,还有哪些参数是 read_csv() 和 read_tsv() 这两个函数共有的?
    (3) read_fwf() 函数中最重要的参数是什么?
    (4) 有时 CSV 文件中的字符串会包含逗号。为了防止引发问题,需要用引号(如 " 或 ')
    将逗号围起来。按照惯例, read_csv() 默认引号为 ",如果想要改变默认值,就要转而
    使用 read_delim() 函数。要想将以下文本读入一个数据框,需要设定哪些参数?
    "x,y\n1,'a,b'"
    (5) 找出以下每个行内 CSV 文件中的错误。如果运行代码,会发生什么情况?
    read_csv("a,b\n1,2,3\n4,5,6")
    read_csv("a,b,c\n1,2\n1,2,3,4")
    read_csv("a,b\n"1")
    read_csv("a,b\n1,2\na,b")
    read_csv("a;b\n1;3")

    # (1)
    # read_delim() 
    # (2)
    ?read_csv
    ?read_tsv
    # 参数col_names,col_types,locale,na,quoted_na,quote,等参数都一样
    # (3)
    ?read_fwf
    # 最重要的是分割符参数col_positions,告诉列从哪开始和结束
    # (4)
    x <- "x,y\n1,'a,b'"
    read_delim(x, ",", quote = "'")
    # read_csv也支持该参数
    read_csv(x, quote = "'")
    
    read_csv("a,b\n1,2,3\n4,5,6") # 列名只有两个,其中的元素被舍弃
    read_csv("a,b,c\n1,2\n1,2,3,4") # 元素少了一个,用NA补全
    read_csv("a,b\n\"1")
    read_csv("a,b\n1,2\na,b")
    read_csv("a;b\n1;3")
    

    8.3 解析向量

    parse_*() 函数族函数接受一个字符向量,并返回一个特定向量,如逻辑、整数或日期向量
    也即指明输入的是何种类型的数据
    na 参数设定了哪些字符串应该当作缺失值来处理

    str(parse_logical(c("TRUE", "FALSE", "NA")))
    str(parse_integer(c("1", "2", "3")))
    str(parse_date(c("2010-01-01", "1979-10-14")))
    parse_integer(c("1", "231", ".", "456"), na = ".")
    
    • parse_logical() 和 parse_integer() 函数分别解析逻辑值和整数。
    • parse_double() 是严格的数值型解析函数, parse_number() 则是灵活的数值型解析函数。
    • parse_character() 函数
    • parse_factor() 函数可以创建因子, R 使用这种数据结构来表示分类变量,该变量具有
      固定数目的已知值。
    • parse_datetime()、 parse_date() 和 parse_time() 函数可以解析不同类型的日期和时间。

    8.3.1 数值

    parse_number() 可以忽略数值前后的非数值型字符。这个函数特别适合处理货币和百分比,也可以提取嵌在文本中的数值:

    parse_number('$100')
    parse_number('1,233,400')
    # 也可以设置分组符号
    parse_number(
    "123.456.789",
    locale = locale(grouping_mark = ".")
    )
    

    8.3.2 字符串

    计算机将字符从编码为十六进制数存储在计算机中,这个示例中的编码方式称为 ASCII。 ASCII 可以非常好地表示英文字符

    UTF-8为目前通用的字符编码方法,

    # 十六进制数
    charToRaw("Hadley")
    
    x1 <- "El Ni\xf1o was particularly bad this year"
    x2 <- "\x82\xb1\x82\xf1\x82\xc9\x82\xbf\x82\xcd"
    
    # parse_character(x1)
    # parse_character(x2) #编码方式不对,乱码
    # encoding设置编码方式
    parse_character(x2,locale = locale(encoding = "Shift-JIS"))
    # guess_encoding函数可以猜测编码方式
    guess_encoding(charToRaw(x2))
    

    8.3.3 因子

    R 使用因子表示取值范围是已知集合的分类变量

    fruit <- c("apple", "banana")
    parse_factor(c("apple", "banana", "bananana"))
    parse_factor(c("apple", "banana", "bananana"), levels = fruit)
    

    8.3.4 日期、 日期时间与时间

    parse_datetime() 期待的是符合 ISO 8601 标准的日期时间。 ISO 8601 是一种国际标准,
    其中日期的各个部分按从大到小的顺序排列,即年、月、日、小时、分钟、秒

    parse_datetime("2010-10-01T2010")
    

    parse_date() 期待的是四位数的年份、一个 - 或 /、月、一个 - 或 /,然后是日

    parse_date("2010-10-01")
    

    parse_time() 期待的是小时、 :、分钟、可选的 : 和秒,以及一个可选的 a.m./p.m. 标识符

    library(hms)
    parse_time("01:10 am")
    #> 01:10:00
    parse_time("20:10:01")
    #> 20:10:01
    # 创建解析函数进行尝试解析
    parse_date("01/02/15", "%m/%d/%y")
    #> [1] "2015-01-02"
    parse_date("01/02/15", "%d/%m/%y")
    #> [1] "2015-02-01"
    parse_date("01/02/15", "%y/%m/%d")
    #> [1] "2001-02-15"
    

    8.3.5 练习
    (1) locale() 函数中最重要的参数是什么?
    date and time formats: date_names, date_format, and time_format
    time zone: tz
    numbers: decimal_mark, grouping_mark
    encoding: encoding

    (2) 如果将 decimal_mark 和 grouping_mark 设为同一个字符,会发生什么情况?如果将 decimal_mark 设为 ,, grouping_mark 的默认值会发生什么变化?如果将 grouping_mark 设为 .,decimal_mark 的默认值会发生什么变化?
    decimal_mark and grouping_mark must be different

    (3) 我们没有讨论过 locale() 函数的 date_format 和 time_format 选项,它们的作用是什
    么?构建一个示例,说明它们在何种情况下是有用的?

    # 设置默认的时间和日期格式
    locale()
    parse_date("1 janvier 2015", "%d %B %Y", locale = locale("fr"))
    #> [1] "2015-01-01"
    parse_date("14 oct. 1979", "%d %b %Y", locale = locale("fr"))
    #> [1] "1979-10-14"
    

    (4) 如果你不是居住在美国,创建一个新的地区对象,并封装你最常读取的文件类型的相关
    设置。

    parse_date("02/01/2006") # 报错不能识别该格式
    au_locale <- locale(date_format = "%d/%m/%Y") #设置新格式
    parse_date("02/01/2006", locale = au_locale)
    
    

    (5) read_csv() 和 read_csv2() 之间的区别是什么?
    (6) 欧洲最常用的编码方式是什么?亚洲最常用的编码方式是什么?可以使用 google 找出
    答案。Chinese: GB 2312, GBK, GB 18030
    (7) 生成正确形式的字符串来解析以下日期和时间。

    d1 <- "January 1, 2010"
    parse_date(d1,'%B %d, %Y')
    d2 <- "2015-Mar-07"
    parse_date(d2,"%Y-%b-%d")
    d3 <- "06-Jun-2017"
    parse_date(d3, "%d-%b-%Y")
    d4 <- c("August 19 (2015)", "July 1 (2015)")
    parse_date(d4,"%B %d (%Y)")
    d5 <- "12/30/14" # 2014年12月30日
    parse_date(d5,"%m/%d/%y")
    t1 <- "1705"
    parse_time(t1, "%H%M")
    t2 <- "11:15:10.12 PM"
    

    8.4 解析文件

    • readr 如何自动猜出文件每列的数据类型。
    • 如何修改默认设置。
      策略一:根据前面的行猜测
    guess_parser("2010-10-01") # 猜测
    str(parse_guess("2010-10-01")) # 解析
    
    
    challenge <- read_csv(readr_example("challenge.csv")) # 不能读入
    problems(challenge) #整数后面有拖尾字符
    # 增加猜测行数
    challenge2 <- read_csv(
    readr_example("challenge.csv"),
    guess_max = 1001
    )
    # 将所有行按字符串读入
    challenge2 <- read_csv(readr_example("challenge.csv"),
    col_types = cols(.default = col_character())
    )
    # 然后用type_convert函数自动解析各列
    type_convert(challenge2)
    

    8.5 写入文件

    write_csv() 和 write_tsv()
    如果想要将 CSV 文件导为 Excel 文件,可以使用 write_excel_csv() 函数
    这几个函数中最重要的参数是 x(要保存的数据框)和 path(保存文件的位置)。还可以使
    用 na 参数设定如何写入缺失值,如果想要追加到现有的文件,需要设置 append 参数

    • haven 可以读取 SPSS、 Stata 和 SAS 文件;
      • readxl 可以读取 Excel 文件(.xls 和 .xlsx 均可);
      • 配合专用的数据库后端程序(如 RMySQL、 RSQLite、 RPostgreSQL 等), DBI 可以对相
      应数据库进行 SQL 查询,并返回一个数据框。

    阅读推荐:
    生信技能树公益视频合辑:学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!
    B站链接:https://m.bilibili.com/space/338686099
    YouTube链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
    生信工程师入门最佳指南:https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA

    相关文章

      网友评论

        本文标题:R数据科学(八)reader包数据导入

        本文链接:https://www.haomeiwen.com/subject/gjsbfqtx.html