# 大数据的统计学基础

作者: LiuYueRR | 来源:发表于2020-04-05 00:00 被阅读0次

统计
读书感想-大数据的工具：R语言实战
如何快速掌握数据分析与数据挖掘？
【小火杂谈】描述性统计的深入分析
数据分析有哪些好书值得推荐？
数据挖掘数据分析
学数据分析要懂的统计学知识
125、描述统计学基础
《智能时代》读后感（二）
数据分析

概率论与统计学

概率论是统计学的基础，统计学冲锋在应用第一线，概率论提供武器。

我们在学习R的时候，会做过假设检验。做假设检验的时候会有一个基本的技术就是构造出统计量，这些统计量要满足一定的概率密度分布，然后我算这个统计量的值，来判定它在这个密度分布里面，分布在哪个区域，出现在这个区域内的可能性有多高，如果可能性太低，我们就判定我们的假设检验是不成立的。那么如何构造这个统计量，这是一个很有技术的东西，同时也是由数学家来完成的，那这个工作就是概率论所作的事情。

古典概率论：扔硬币，正面1/2反面1/2，扔的次数之间是相互独立的。但是这个等概率事件确实是一个不是很严谨的事情。仔细想一想其实是很有趣的。柯尔莫哥洛夫创建现代概率论他将概率论提出了许多公理，因此将概率论变成了非常严谨的一门学科。

学会和运用概率，会使人变得聪明，决策更准确。

统计学：统计学可以分为：描述统计学与推断统计学 描述统计学：使用特定的数字或者图表来体现数据的集中程度和离散程度。比如：每次考试算的平均分，最高分，各个分数段的人数分布等，也是属于描述统计学的范围。 推断统计学：根据样本数据推断总体数据特征。比如：产品质量检查，一般采用抽样检测，根据所抽样本的质量合格率作为总体的质量合格率的一个估计。统计学的应用十分广泛，可以说，只要有数据，就有统计学的用武之地。目前比较热门的应用：经济学，医学，心理学，IT行业大数据方面等。

第一节：均值，中位数，众数，方差，标准差与常见的统计图表

集中趋势

例如：对于 1 2 3 4 5 这组数据，你会使用哪个数字作为代表呢？答案是3。因为3是这组数据的中心。对于一组数据，如果只容许使用一个数字去代表这组数据，那么这个数字应该如何选择？？？-----选择数据的中心，即反映数据集中趋势的统计量。集中趋势：在统计学里面的意思是任意种数据向中心值靠拢的程度。它可以反映出数据中心点所在的位置。我们经常用到的能够反映出集中趋势的统计量：均值：算数平均数，描述平均水平。中位数：将数据按大小排列后位于正中间的数描述，描述中等水平。众数：数据种出现最多的数，描述一般水平。

均值

均值：算数平均数例如：某次数学考试种，小组A与小组B的成员成绩分别如下： A：70，85，62，98，92 B：82，87，95，80，83 分别求出两组的平均数，并比较两组的成绩。

mean(c(70,85,62,98,92))
81.4
mean(c(82,87,95,80,83))
85.4

组B的平均分比组A的高，就是组B的总体成绩比组A高。

中位数

中位数：将数据按大小顺序（从大到小或者从小到大）排列后处于中间位置的数。例如：58，32，46，92，73，88，23 1.先排序：23，32，46，58，73，88，92 2.找出中间位置的数23，32，46，58，73，88，92 如果数据中是偶数个数，那么结果会发生什么改变？例如：58，32，46，92，73，88，23，63 1.先排序：23，32，46，58，63，73，88，92 2.找出处于中间位置的数：23，32，46，58，63，73，88，92 3.若处于中间位置的数据有两个（也就是数据的总个数为偶数时），中位数为中间两个数的算数平均数：（58+63）/2=60.5 在原数据中，四个数字比60.5小，四个数字比60.5大。

众数

众数：数据中出现次数最多的数（所占比例最大的数）一组数据中，可能会存在多个众数，也可能不存在众数。 1 2 2 3 3 中，众数是2 和 3 1 2 3 4 5 中，没有众数 1 1 2 2 3 3 4 4 中，也没有众数只要出现的频率是一样的，那么就不存在众数众数不仅适用于数值型数据，对于非数值型数据也同样适合 {苹果，苹果，香蕉，橙子，橙子，橙子，橙子，桃子}这一组数据，没有什么均值中位数科研，但是存在众数---橙子。但是在R语言里面没有直接计算众数的内置函数，不过可以通过统计数据出现的频率变相的去求众数。

xdata <- c(2,4.4,3,3,2,2.2,2,4)
table(xdata)
xdata
 2 2.2   3   4 4.4 
 3   1   2   1   1 
#因此众数就是2

下面比较一下均值，中位数，众数三个统计量有什么优点和缺点 [图片上传失败...(image-57f18-1586015539906)]

均值：优点:充分利用所有数据，适用性强，缺点:容易受到极端值影响中位数: 优点:不受极端值影响，缺点:缺乏敏感性 1,2,3 0 2 10. 虽然中位数都是2，但是整体数据分布已经不同。众数：优点:当数据具有明显的集中趋势时，代表性好，不受极端值影响缺点:缺乏唯一性，可能有一个，可能有两个，可能一个都没有 1 2 3 4 5 就没有众数出现。

例子：两个公司的员工及薪资构成如下： A：经理1名，月薪100000；高级员工15名，月薪10000；普通员工20名，月薪7500 B：经理1名，月薪20000；高级员工20名，月薪11000；普通员工15名，月薪9000 请比较两家公司的薪资水平。若只考虑薪资，你会选择哪一家公司？

均值

A (100000+15*10000+20*7500)/36 = 11111.1
B (20000+20*11000+15*9000)/36 = 10416.67

中位数

A 7500 B 11000

众数

A 7500 B 11000</pre>

若从均值的角度考虑，明显地A公司的平均月薪比B公司的高，但是A公司存在一个极端值，大大地拉高了A公司的均值，这时只从均值考虑明显不太科学。从中位数和众数来看，B公司的薪资水平比较高，若是一般员工，选择B公司显得更加合理。

离散程度的描述

比较下面两组数据： A： 1 2 5 8 9 B： 3 4 5 6 7 两组数据的均值都是5，但是你可以看出B组的数据与5更加接近。但是有描述集中趋势的统计量不够，需要有描述数据的离散程度的统计量。

极差

极差：最大值 - 最小值，简单地描述数据的范围大小。 A： 9 - 1 = 8 B： 7 - 3 = 4 同样的5个数，A的极差比B的极差要大，所以也比B的要分散但是只用极差这个衡量离散程度也存在不足比如： A： 1 2 5 8 9 B： 1 4 5 6 9 两组数据虽然极差都是相同的，但是B组数据整体分布上更加靠近5。

#在R语言中也可以求极差
range(c(1,2,5,8,9))
1 9
max(c(1,2,5,8,9))
9
min(c(1,2,5,8,9))
1
tmp <- max(c(1,2,5,8,9)) - min(c(1,2,5,8,9))
tmp
8

方差

方差：在统计学上，更常地是使用方差来描述数据的离散程度：数据离中心越远，越离散。方差越大，就代表这组数据越离散。

在R语言中可以直接计算方差 var()

var(c(1,2,5,8,9))
12.5
var(c(1,4,5,6,9))
8.5

方差越大，就代表这组数据越离散。</pre>

标准差

对于前面的数据 1 2 5 8 9，前面求的一组数据的方差是12.5。将12.5于原始数据进行比较，可以看出12.5比原数据都大，这是否就能说明这一组数据十分离散呢？其实方差与元数据的单位是不一样的，这样比较也是毫无意义的。如果原始数据的单位是m的话，那么方差的单位就是m^2 为了保持单位的一致性，我们引入一个新的统计量：标准差标准差：sqrt(var())，有效地避免了因为单位的平方而引起的度量问题。与方差一样，标准差的值越大，表示数据越分散。 A： 1 2 5 8 9 B： 3 4 5 6 7

在R中可以直接计算标准差sd()

sd(c(1,2,5,8,9))
3.535534
sd(c(3,4,5,6,7))
1.1581139
#与方差一样，标准差的值越大，表示数据越分散。

直方图

某班40个学生某次数学检测的成绩如下：

63，84，91，53，69，81，61，69，78，75，81，67，76，81，79，94，61，69，89，70，70，87，81，86，90，88，85，67，71，82，87，75，87，95，53，65，74，77 对于这一组数字，你能看出什么呢？或许先算一算平均值，中位数，或者众数

>mean(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
76.60526

median(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
77.5

table(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))

53 61 63 65 67 69 70 71 74 75 76 77 78 
 2  2  1  1  2  3  2  1  1  2  1  1  1 
79 81 82 84 85 86 87 88 89 90 91 94 95 
 1  4  1  1  1  1  3  1  1  1  1  1  1 </pre>

或许算一算这组数据的方差或者标准差

>var(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
118.1913
sd(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
10.87158

但是即便是统计了上述的数据，我们还是对全班同学的分数分布，没有一个全面的了解。原始数据太杂乱无章，难以看出规律性，只依赖数字来描述集中趋势与离散程度让人难以对数据产生直观地印象，这是我们就需要用到图标来展示这些数字。

直方图的绘制

1.找出上面数据中的最大值和最小是，确定数据的范围。

min(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
53
max(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
95

将成绩排序后很容易得到最大值是95，最小值是53

>sort(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))

 [1] 53 53 61 61 63 65 67 67 69 69 69
[12] 70 70 71 74 75 75 76 77 78 79 81
[23] 81 81 81 82 84 85 86 87 87 87 88
[34] 89 90 91 94 95

2.整理数据，将数据按照成绩分为几个组。成绩按照一般50-60，60-70，70-80，80-90，90-100这几个分段来划分(一般都分为5-10组)，然后统计这几个分段内部的频数。可以看到80-90这个分段的人数是最多的。注意在绘制直方图的时候，一定要知道是左闭右开还是左开右闭。因为这个可能会直接影响到频数的统计。

#在R中可以直接绘制直方图
hist(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
#hist()的参数breaks =5   breaks=10
#设置直方图的组距

上图就是：频数直方图。频数作为纵坐标，成绩作为横坐标。通过直方图我们可以对成绩有一个非常直观的印象。除了频数直方图，还有一种直方图：频率直方图。与频数直方图相比，频率直方图的纵坐标有所改变，使用了频率/组距。频率=频数/总数；组距就是分组的极差，这里的组距是10.

箱线图

除了直方图外，画一个简单的箱线图也可以大致看出数据的分布。

#R语言种可以绘制箱线图
boxplot(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))

想要看懂箱线图，必须要学习一些箱线图专业的名词：下四分位数：Q1，将所有的数据按照从小到大的顺序排序，排在第25%位置的数字。上四分位数：Q3，将所有的数据按照从小到大的顺序排序，排在第75%位置的数字。四分距：IQR，等于Q3-Q1，衡量数据离散程度的一个统计量。异常点：小于Q1-1.5IQR或者大于Q3+1.5IQR的值。（注意是1.5倍的IQR）上边缘：除异常点以外的数据中的最大值下边缘：除异常点以外的数据种的最小值

#R语言中有直接统计四分位数(IQR)的函数
IQR(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
16.75
#R语言中也有可以统计箱线图分布的函数
quantile(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))
 0%   25%   50%   75%  100% 
53.00 69.00 77.50 85.75 95.00
#quantile()得到的结果分别是最小值，下四分位数，中位数，上四分位数，最大值。
85.75 - 69.00
16.75

茎叶图

茎叶图可以在保留全部数据信息的情况下，直观地显示出数据的分布情况。左边是茎，右边是叶。若将茎叶图旋转90度，则可以得到一个类似于直方图的图。跟直方图一样，也可以直观地知道数据的分布情况。并且可以保留所有的数据信息。茎叶图的画法也非常的简单：将数据分为茎和叶两部分，这里的茎是指十位上的数字，叶是指给上的数字。将茎部份（十位）从小到大，从上到下写出来相对于各自的茎，将同一茎（十位）从小到大，从左往右写出来。

#R语言也可以绘制茎叶图
stem(c(63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77))

The decimal point is 1 digit(s) to the right of the |

 5 | 33
 5 | 
 6 | 113
 6 | 577999
 7 | 0014
 7 | 556789
 8 | 111124
 8 | 5677789
 9 | 014
 9 | 5

但是茎叶图也有缺陷，因为百位和十位同时画在茎叶图的时候，容易区分不开。同时也可能出现却叶的情况。

折线图

以时间作为横坐标，变量作为纵坐标，反映变量随时间推移的变化趋势。

#R语言可以绘制折线图
plot()
dose <- c(20,30,40,45,50)
drugA <- c(16,20,27,40,60)
plot(dose,drugA,type="l")

柱状图

#R语言可以绘制柱状图
barplot()
library(vcd)
counts <- table(Arthritis$Improved)
barplot(counts)

显示一段时间内的数据变化或者显示各项之间的比较情况。

饼图

根据各项所占百分比决定在饼图中扇形的面积。简单易懂，通俗明了。可以更加形象地看出各个项目所占的比例大小。适当的运用一些统计图表，可以更生动形象的说明，不再只是纯数字的枯燥描述。

#R语言也可以绘制饼图
pie()

slices <- c(10,12.4,16,8)
pie(slices)</pre>

学习链接：https://www.bilibili.com/video/BV1Ut411r7RG

统计
自选课程-统计学可汗学院统计学定义统计学是在数据分析的基础上，研究测定、收集、整理、归纳和分析反映数据数据，以...
读书感想-大数据的工具：R语言实战
入门书籍。不是大数据入门书籍，而是R语言的入门书籍。大数据的基础，还是统计学。没有统计学的基础，看这本书，就好像...
如何快速掌握数据分析与数据挖掘？
做数据分析最重要的还是本身的逻辑能力和是否有统计学的基础。数据分析师需要什么技能：数据分析技能、统计学基础、计...
【小火杂谈】描述性统计的深入分析
描述性统计是：报告数据、不做任何分析，不做任何猜测。推断统计学：推断统计学建立到样本的基础上，作出推断。定量数据...
数据分析有哪些好书值得推荐？
1、统计学书单如果你打开招聘的职位要求，都会要求具有统计学的知识，这是因为统计学是数据分析、机器学习的基础知识，...
数据挖掘数据分析
数据挖掘：预备基础知识：概率论、线性代数、信息论、概率论、统计学。编程基础：数据库、pytho...
学数据分析要懂的统计学知识
对于数据分析师来说，我们是必须学习统计学知识的，毕竟天天跟数据打交道，总不能连最基础的统计学知识都不会吧？ ...
125、描述统计学基础
学习数据分析最重要的基础之一是描述统计学，我推荐《深入浅出统计学》这本书，那什么是描述统计学呢？描述统计学就是将...
《智能时代》读后感（二）
为什么说统计学是点石成金的魔棒？因为统计学是建立在概率论基础之上，收集、处理和分析数据，找到数据内在的关联性和规...
数据分析
1、数据分析概念和统计学基础。数据分析概念，方法论，流程。数据分析和数据挖掘的概念。商业数据分析预测的本质。 ...

# 大数据的统计学基础

概率论与统计学

第一节：均值，中位数，众数，方差，标准差与常见的统计图表

集中趋势

均值

中位数

众数

均值

中位数

众数

离散程度的描述

极差

方差

在R语言中可以直接计算方差 var()

方差越大，就代表这组数据越离散。</pre>

标准差

在R中可以直接计算标准差sd()

直方图

直方图的绘制

箱线图

茎叶图

折线图

柱状图

饼图

相关文章

统计

读书感想-大数据的工具：R语言实战

如何快速掌握数据分析与数据挖掘？

【小火杂谈】描述性统计的深入分析

数据分析有哪些好书值得推荐？

数据挖掘数据分析

学数据分析要懂的统计学知识

125、描述统计学基础

《智能时代》读后感（二）

数据分析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读