美文网首页数据蛙数据分析每周作业统计学
Datawhale统计学一周集训——任务一

Datawhale统计学一周集训——任务一

作者: 晓迦 | 来源:发表于2019-01-03 21:37 被阅读21次

    学习内容

    学习内容(一)
    可汗学院统计学12-26集,统计学基础知识、二项分布及泊松分布
    学习内容(二)
    可汗学院统计学27-34集,大数定理、正态分布
    其他资料
    《深入浅出统计学》《商务与经济统计》

    学习笔记(一)

    样本和总体

    总体:研究对象的全部。
    样本:研究中实际观测或调查的一部分个体。
    统计推断的目的是要从样本含有的信息中提取总体的信息。
    样本均值:\ \hat{x} = \frac{\sum_{i=1}^{n}x_i}{n}
    样本方差:\ s = \sqrt{\frac{{\sum({x_i- \hat{x})^2}}}{n-1}}
    为什么样本方差的分母是n-1?
    比较通俗的解释:
    因为所得到的样本均值不等于总体均值,导致样本方差在计算的时候偏小,这时候通过减小分母量来使修正样本偏差。
    严肃的解释:
    由均值的计算公式知:一旦计算平均值,n个变量就是不再独立了,都与均值产生了联系,也就是说在n个随机变量Xi 中只要知道了其中的任意n-1个及均值,就能求出另外一个,故能自由地取值的随机变量只有n-1个。所以在用均值计算方差时,能自由变化的随机变量只有n-1个,所以方差要除是n-1。
    参考:CSDN博客
    知乎
    设计样本:确定目标总体,确定抽样单位,确定抽样空间。
    无偏样本:该样本与总体样本具有相似特性,利用相似特性对总体本身做出判断。一个无偏样本的分布形状与作为其来源的总体的分布形状相似。

    几何分布

    假设成功一次的概率为p,几何分布是关于成功一次所需要试验的次数的概率分布。
    p(x=r)=pq^{r-1} 指第r次成功,前r-1次都失败的概率。
    期望:成功一次所需要的期望次数,\frac{1}{p}
    方差:Var(X) = q/p^2

    ps:方差的一般计算公式:Var(X) = E(X^2)-E^2(X)

    二项分布

    说起二项分布,先说一下伯努利试验,也就是n次独立重复试验。
    伯努利试验特点:

    • 每次试验中事件只有两种结果。
    • 每次试验中事件发生的概率相同。
    • n次试验的事件相互之间独立。
      概率公式:p(X=r) = {C}^r_n*{p}^r*(q)^{n-r} (p为单次试验成功的概率,p为单次试验失败的概率)
      上诉公式表示:在n次试验中,成功r次的概率。
      期望:E(X)=np
      方差:Var(X)=npq

    举一个例子来说明:
    假设小明投篮成功的概率为0.3,共投了10次。
    投篮只有投中或者不中,每次投中的概率不变为0.3,前一次投篮不影响后一次投篮,符合伯努利试验条件。
    小明投中的次数符合二项分布。
    P(X=3) = C_{10}^3*0.3^3*0.7^7
    期望:E(X) = 10 * 0.3 = 3
    方差:Var(X) = 10 * 0.3*0.7 = 2.1

    泊松分布

    泊松分布由二项分布推导而来。
    泊松过程:把单位时间分为无限份,每一份的概率为
    \lambda/n,随机变量X符合二项分布,可由二项分布公式推导出泊松分布公式。
    详情见:CSDN博客
    泊松分布适用于描述单位时间内随机事件发生的次数。
    以视频上的例子来说明:
    假如你是一名交通工程师,想知道任意时刻通过街上某一点的车辆数,确定某一个小时内100辆车通过的概率。
    假设:

    • 街上车流量任意情况没有差异。(虽然真实情况存在某些时候车流量大,但这里简化处理)
    • 一段时间的车流量对另一段时间的车流量没有影响。

    首先定义一个随机变量X,表示一个小时内通过的车辆数,然后通过求出随机变量的概率分布,这样就能求出某一个小时内通过100辆车的概率。

    P(X=k)=\frac{\lambda^k}{k!}e^{-{\lambda}}
    泊松分布的均值和方差均为\lambda.
    泊松分布理解

    学习笔记(二)

    大数定律

    大数定律:当我们的样本数据量足够大的时候,我们就可以用样本的平均值来估计总体平均值。
    用Python实现大数定律过程

    numberSize = 1000
    randData = np.random.normal(loc=10,scale=50,size=numberSize)  #loc为正态分布的均值,scale为标准差,size为输出的值
    randData_average = []                                       # 当使用  np.random.rand(size)是标准的正态分布
    sum_rand = 0
    for i in range(len(randData)):
        sum_rand += randData[i]
        randData_average.append(sum_rand/(i+1))
    x = np.arange(0,numberSize,1)
    y  = randData_average
    plt.plot(x,y)
    plt.plot([0,numberSize],[10,10],'r')
    
    大数定律
    从图中可以发现:当迭代次数逐渐增大的时候,样本的均值接近期望值10.
    参考:大数定律

    赌徒谬论
    上次我在看别人打牌的时候,有个人输了蛮多钱,就说,后面一定会赢钱,前面都输了这么多了。这一点很明显是错的,每一场牌局都是一次独立的试验,每一场输赢的概率都不变,前面的结果不影响后面的情况。
    是不是大数定律失效了呢? 明显不是,大数定律说的是,样本数据量足够大。

    正态分布

    若随机变量X服从一个数学期望为\mu,标准方差为\sigma^2的高斯分布,记为:X~N(\mu,\sigma^2)
    概率密度公式为:f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
    标准正态分布是\mu=0,\sigma=1的正态分布。
    我们在计算概率的时候一般会使用z变换将正态分布转化为标准正态分布来计算。
    注意:

    • 68.27%的面积在平均值左右一个标准差内
    • 95.45%的面积在平均值左右两个标准差内
    • 99.73%的面积在平均值左右三个标准差内

    相关文章

      网友评论

        本文标题:Datawhale统计学一周集训——任务一

        本文链接:https://www.haomeiwen.com/subject/aluqrqtx.html