用R进行简单的数据统计

作者: 海若音 | 来源:发表于2017-11-27 21:12 被阅读8次

面对一堆数据,我们如何从中找出有用的线索,去做判断?

用四个指标,可以勾勒出这些数据代表的平均水平、整体分布情况、数据波动性大小以及数据集间相对比较。那么这几个指标分别是平均值、四分位数、标准差和标准分。

一、平均值。

最常见的统计方法就是平均值。当不同的数据集间,次数、频数不同,用平均值就能够进行比较。比如客户满意度调查,每个客服的有效样本数是不同的,那么总分高低会相差很多,用平均值就能去除这个样本数的影响。举个调查结果的满意度指标A1和A2的例子。

> A1<-c(5,7,7,6,5,5,3,7,7,6)

> A2<-c(6,7,7,6,2,5,5,7,5,6)

在R中,可以如下语句来统计两个指标的平均值:

> avgA1<-mean(A1)

> avgA2<-mean(A2)

> avgA1

[1] 5.8

> avgA2

[1] 5.6

A1的平均值要高于A2。

二、四分位数。

平均值虽然是最常用的指标,但是实际中总有一些异常高或异常低的数值将平均值拉得“变形”。而我们真正要知道的,并非是个统计数字而已,我们要了解的,是数值背后的“真相”。因此,为防止异常数值使真相扭曲,我们需要更多的指标,那就是四分位数。

四分位数其实有5个数值,从低到高分别是下界、下四分位数、中位数、上四分位数、上界。对于统计分析来说,我们要计算的是:全距、下四分位数、中位数、上四分位数、四分位距。这些四分位数值就像把整段数据切了三刀,按照数据大小排序后,把整段数据按位置分成了均等四份。这样特别少的但数值特别小或特别大的都被切到了头和尾,而中间的两段就能反映“最普遍”的情况。

R里的语句:

全距:

> wdA1<-max(A1)-min(A1)

> wdA2<-max(A2)-min(A2)

> wdA1

[1] 4

> wdA2

[1] 5

下四分位数:

> Q1A1<-quantile(A1,probs=0.25)

> Q1A2<-quantile(A2,probs=0.25)

> Q1A1

25% 

  5 

> Q1A2

25% 

  5 

中位数:

> Q2A1<-median(A1)

> Q2A2<-median(A2)

> Q2A1

[1] 6

> Q2A2

[1] 6

上四分位数:

> Q3A1<-quantile(A1,probs=0.75)

> Q3A2<-quantile(A2,probs=0.75)

> Q3A1

75% 

  7 

> Q3A2

 75% 

6.75 

四分位距:

> QDA1<-Q3A1-Q1A1

> QDA2<-Q3A2-Q1A2

> QDA1

75% 

  2 

> QDA2

 75% 

1.75

从上述结果,可见,虽然A1平均值高于A2,但中位数是相等的。A1和A2的下四分位数是相等的,而A1的全距要小于A2,但四分距大于A2。也就是说,客户满意度中指标A1的数据较指标A2,整体变化幅度较小,而剔除异常值后,A1的数据变化幅度又略高于指标A2。

> boxplot(A1,A2,main="Customer Satisfactor Index A1 vs A2")

三、标准差。

四分位数描述了数值的分散程度,我们还可以用另外一个指标--标准差直观地表示变异程度。

> sd(A1)

[1] 1.316561

> sd(A2)

[1] 1.505545

A1的标准差低于A2,也就是说指标A1的分数更为集中。

四、标准分。

每个客户的打分可以用标准分z = (x-μ)/σ来衡量。标准分的含义是每个数值相对于平均值的距离,单位是标准差。

> scale(A1)

            [,1]

 [1,] -0.6076436

 [2,]  0.9114654

 [3,]  0.9114654

 [4,]  0.1519109

 [5,] -0.6076436

 [6,] -0.6076436

 [7,] -2.1267527

 [8,]  0.9114654

 [9,]  0.9114654

[10,]  0.1519109

attr(,"scaled:center")

[1] 5.8

attr(,"scaled:scale")

[1] 1.316561

正的标准分代表打分高于平均值的情况,而负分为低于平均值的打分;除了第7个指标外,都是小于1倍的标准差,而第7个客户的打分显然对标准差的影响较大。

相关文章

  • 用R进行简单的数据统计

    面对一堆数据,我们如何从中找出有用的线索,去做判断? 用四个指标,可以勾勒出这些数据代表的平均水平、整体分布情况、...

  • 女士品茶

    描述统计:对数据进行整理,简单直观的呈现数据。 推论统计:利用样本信息推论总体,用已知去预测未知。

  • 学习R的第一天

    Why R R是统计软件的一种,内部包含许多统计技术的环境。要对数据进行统计分析数据挖掘,一个好的工具必不可少,...

  • 第一章

    安装R和R简介 R简介 R是一款广泛使用的免费的统计学软件。可用其交互界面进行一些统计分析,也可进行简单编程。 安...

  • 1、用Excel进行简单数据分析

    1、Excel加载数据统计分析处理 在我们进行实验数据简单处理的时候,可以用excel中的数据分析选项简单处理 步...

  • R 语言学习心得——面向初学者

    &emsp 进行数据分析时,R语言有独特的优势,比如,很简单,无论是语法还是逻辑上,但是功能很强大。R是由统计学家...

  • 学习小组Day4笔记——嗷嗷嗷啊啊

    R语言基础 什么是R和RStudio R是一种编程语言,用来进行统计分析和图形绘制,可以将复杂的统计数据,打包处理...

  • R 语言实践系列---消费趋势图

    实践目的:用R语言对数据进行简单处理操作,包括处理缺失数据,数据类型转换等,以及根据源数据作出对应的消费趋势图。 ...

  • 4个教程带你入门R语言

    R 语言简介: R 语言流淌着统计学的血液 , 它内置了海量的统计函数 ,使用者可以利用其对数据进行快速交互分析 ...

  • 9个R语言项目教程

    R 语言简介: R 语言流淌着统计学的血液 , 它内置了海量的统计函数 ,使用者可以利用其对数据进行快速交互分析 ...

网友评论

    本文标题:用R进行简单的数据统计

    本文链接:https://www.haomeiwen.com/subject/ipdyvxtx.html