美文网首页
R数据科学笔记:4

R数据科学笔记:4

作者: 周小钊 | 来源:发表于2020-08-17 15:48 被阅读0次

    本次笔记整理了第一部分《探索》,具体函数的用法还是要去之前的笔记看一下
    R数据科学笔记:1
    R数据科学笔记:2
    R数据科学笔记:3

    1.ggplot2相关

    gglpot2绘图模板:

    ggplot(data = <DATA>) +<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>),stat = <STAT>,position = <POSITION>) +<FACET_FUNCTION>

    真正的绘图命令(stat_ ,geom_ ,annotate),这三类就是实现一个函数一个图层的核心函数。

    geom_abline 线图,由斜率和截距指定
    geom_area 面积图(即连续的条形图)
    geom_bar 条形图
    geom_bin2d 二维封箱的热图
    geom_blank 空的几何对象,什么也不画
    geom_boxplot 箱线图
    geom_contour 等高线图
    geom_crossbar crossbar图(类似于箱线图,但没有触须和极值点)
    geom_density 密度图
    geom_density2d 二维密度图
    geom_errorbar 误差线(通常添加到其他图形上,比如柱状图、点图、线图等)
    geom_errorbarh 水平误差线
    geom_freqpoly 频率多边形(类似于直方图)
    geom_hex 六边形图(通常用于六边形封箱)
    geom_histogram 直方图
    geom_hline 水平线
    geom_jitter 点、自动添加了扰动
    geom_line 线
    geom_linerange 区间,用竖直线来表示
    geom_path 几何路径,由一组点按顺序连接
    geom_point 点
    geom_pointrange 一条垂直线,线的中间有一个点(与Crossbar图和箱线图相关,可以用来表示线的范围)
    geom_polygon 多边形
    geom_quantile 一组分位数线(来自分位数回归)
    geom_rect 二维的长方形
    geom_ribbon 彩虹图(在连续的x值上表示y的范围,例如Tufte著名的拿破仑远征图)
    geom_rug 触须
    geom_segment 线段
    geom_smooth 平滑的条件均值
    geom_step 阶梯图
    geom_text 文本
    geom_tile 瓦片(即一个个的小长方形或多边形)
    geom_vline 竖直线

    统计变换函数
    stat_abline 添加线条,用斜率和截距表示
    stat_bin 分割数据,然后绘制直方图
    stat_bin2d 二维密度图,用矩阵表示
    stat_binhex 二维密度图,用六边形表示
    stat_boxplot 绘制带触须的箱线图
    stat_contour 绘制三维数据的等高线图
    stat_density 绘制密度图
    stat_density2d 绘制二维密度图
    stat_function 添加函数曲线
    stat_hline 添加水平线
    stat_identity 绘制原始数据,不进行统计变换
    stat_qq 绘制Q-Q图
    stat_quantile 连续的分位线
    stat_smooth 添加平滑曲线
    stat_spoke 绘制有方向的数据点(由x和y指定位置,angle指定角度)
    stat_sum 绘制不重复的取值之和(通常用在三点图上)
    stat_summary 绘制汇总数据
    stat_unique 绘制不同的数值,去掉重复的数值
    stat_vline 绘制竖直线

    aes : 用于修改geom_XXX() aes参数控制了对哪些变量进行图形映射,图形属性(aes) 横纵坐标(x与y)、点的大小(size)、颜色(color),透明度(alpha)和形状(shape)等。

    position:定位函数。
    position_dodge 并列。
    position_fill 填充。
    position_identity 不对位置进行处理。
    position_jitter 扰动处理。
    position_stack 堆叠处理。

    coord:坐标函数。
    coord_cartesian 笛卡儿坐标。
    coord_equal 等尺度坐标(斜率为1)。
    coord_flip 翻转笛卡儿坐标。
    coord_map 地图投影 。
    coord_polar 极坐标投影 。
    coord_trans 变换笛卡儿坐标。

    2.dplyr数据转换

    1.按行筛选:filter():按给定的逻辑判断筛选出符合要求的子数据集, 类似于 subset() 函数

    2.按列筛选:select():select()用列名作参数来选择子数据集。
    starts_with(“abc”) 匹配以“abc”开头的名称
    ends_with(“xyz”) 匹配以“xyz”结尾的名称
    ontains(“ijk”) 匹配包含“ijk”的名称
    matches(“(.)\1”) 匹配正则表达式的那些变量

    3.排列行:arrange():改变行的顺序,如果列名不止一个,就使后面的列在前面的基础上进行排序

    4.添加新变量:mutate():mutate可以对数据框中已有的变量进行操作或者增加变量,如果只想保留新变量,可以使用transmute()函数

    5.分组摘要:summarize:与group_by()连用可以构成dplyr的最常用操作之一:分组摘要,亦可以与mutate()和filter()结合。


    转载请注明周小钊的博客>>R4ds4

    相关文章

      网友评论

          本文标题:R数据科学笔记:4

          本文链接:https://www.haomeiwen.com/subject/aheqjktx.html