美文网首页统计分析方法bioinformaticsR data manipulate
R for Data Science(笔记) ---数据整理(P

R for Data Science(笔记) ---数据整理(P

作者: 生信小鹏 | 来源:发表于2021-07-14 17:07 被阅读0次
    R for Data Science

    想了一下还是做一个笔记目录,这样能够方便查询

    R for Data Science(笔记) ---数据变换(filter使用)
    R for Data Science(笔记) ---数据变换(select基础使用)
    R for Data Science(笔记) ---数据变换(select组合其他函数)
    R for Data Science(笔记) ---数据变换(创建新的变量)
    R for Data Science(笔记) ---数据变换(行排序)
    R for Data Science(笔记) ---数据变换(归纳总结)
    R for Data Science(笔记) ---数据整理(分列和合并)

    tidy流处理数据的运用,我想这与管道符%>% 的使用,数据处理动词化,有着很重要的关系。

    用最少的时间,解决最重要的、最常见的问题,我把这称为是高效;剩余的难点,我把其称为提高。

    宽数据变长数据

    pivot相关的函数就是为了对数据的表现形式进行改变

    之前在ggplot2画图之前的准备----数据宽长变换谈及过数据长宽变换,也就是pivot函数的应用。这次使用原书里面的例子。

    table4a %>% 
      pivot_longer(c(`1999`, `2000`), names_to = "year", values_to = "cases")
    #> # A tibble: 6 x 3
    #>   country     year   cases
    #>   <chr>       <chr>  <int>
    #> 1 Afghanistan 1999     745
    #> 2 Afghanistan 2000    2666
    #> 3 Brazil      1999   37737
    #> 4 Brazil      2000   80488
    #> 5 China       1999  212258
    #> 6 China       2000  213766
    

    其实,在数据变换的过程中还是对这种数据的一个理解,也就是下面这副图的变换。


    长数据变宽数据

    上面的例子是宽数据变成长数据,一般不会有问题,而长数据变成宽数据时,偶尔会出现问题,主要原因是tidyverse处理数据会把数据形式变为tibble格式,这个和datafram是有去别的。关于这个问题的处理,我在以前的文章中写过,并且展示过。
    ggplot2画图之前的准备----数据宽长变换

    为什么要做这些事情

    不仅就要问了,为啥搞这么多东西
    这是tidyverse处理数据的模式,为什么要这样做,因为写ggplot2 package和tidyverse
    作者是一个人,把R的底层搞一遍,顺带做的适合自己画图工具。

    Hadley Wickham
    以及 Hadley Wickham的个人GitHub

    不得不说,有些东西的进步可能还真是就是个别一些人的推动,这又要牵扯到历史观了,据说R的推动是由于Rstudio的推动,而像Hadley Wickham这样的人,则是开创了一种新的方法。当然这样的人,还有像 谢益辉,Rmarkdown的作者,也是改变了一种展现方法。

    相关文章

      网友评论

        本文标题:R for Data Science(笔记) ---数据整理(P

        本文链接:https://www.haomeiwen.com/subject/jvhypltx.html