美文网首页
【数据分析商业实战】chapter4课程笔记

【数据分析商业实战】chapter4课程笔记

作者: 深海suke | 来源:发表于2019-07-13 10:12 被阅读0次

    本章主要知识点为:参数估计,假设检验,方差分析,相关分析,线性回归。

    1 均值的误差为标准误,是均值的误差 ,其计算公式为样本的标准差/样本数开根号

    2 无论任何分布的均值都是正态分布,因为中心极限定律。均值的样本数越多 ,正态分布的拟合程度就越高。

    3 qq图 是用于检测样本的是否符合正态分布,其对角线为正态曲线,在曲线上的点越多,则其越符合正态曲线。

    4 落在蓝色区域拒绝 ,在白色区域之内接受原假设。

    # 假设检验

    1 假设 真假设和反面假设 

    2 确定置信度 

        小于100 90%

        100-500 5%

        500-1000 1%

    3 收集 数据

    4 看样本和均值的绝对的差是几倍的样本均值的标准误

    t = (样本均值-假设均值)/ 标准误

     z值越大 说明约不靠谱 哈哈哈 

    p值为两边的面积的和

    一般样本量不超过5000

    # 两独立样本T检验

    其检验均值是否相同

    p值显著 ——小于设定的显著度

    levene 方差齐性检验

    1 方差相等  or  2 方差不相等

    相等与否对检验差异影响不大

    #  方差分析

    sst 总体变异——全部的离差平方和

    sse 组内变异——组内的离差平方和

    ssm组间变异——组均值和均值的离差平方和

    F = 【ssm/自由度】/【sse/自由度】 越大越好,但是这个值算出来之后要依据经验来判定是否合适

    # 相关分析

    # 查看两个变量之间的关系,一个标量该改变另外一个变量的均值是否有关系

    相关系数person相关——查看线性关系

    对于发散变量取对数

    # 线性回归

    1 线性关系

    2 抛物线关系

    3 对数关系

    在变量显著的情况下(第二个表P值很小的时候),这个变量才是对结果有意义的。不显著的变量可以直接删除,

    coef表示每增长10000个单位 INcome增长97

    不懂呀!!! 

    Intercept 是截距项

    在上面第一个表示用来做模型结果评价的,

    R-squared 是用于描述模型优劣的,是模型的结实度

    ADJ R-squared 在多个模型比较的时候有意义,用于选择模型用

    Prob 用于看模型的显著度,只要有一个变量显著就是显著的

    AIC、BIC用于筛选莫模型

    后面是对残差的检验。

    R方的解释

    多元线性回归

    去除无法提供增量信息的X(也就是去除共线的X)

    AIC/BIC 越小模型越好

     逐步加变量(n^2/2)

    step1 两两检验,逐步筛选,随机森林(更具变量的数据量 ),iv(一个要计算几秒或者几十秒),最后逐步法

    线性回归在正态分布式稳定的,不正态的环境下非稳定。


    作业笔记

    1 对于左偏数据需要对数据进行对数处理

    2 一般在做检验的过程中样本量不宜超过5k,作业的样本量为16k,这个数据可用于统计性描述,单不建议用于假设检验中。

    ? 3 how to 在describle中对数值型的分类变量进行分类

    4 一般直方图的柱子在20-50之间最佳

    5 在看最大最小值的时候需要看到样本最本质的细节状态

    6 在做离散变量对因变量的观测时,最好能按照中数单调递增或者单调递减的方式来进行。如果中位数值与下个箱子的下边界重合,说明有明显差异。

    7 做两个自变量的相关关系可以判断自变量的值是否共线

    8 在做变量相关性分析的时候,如果变量相关性过小,回归分析的时候还是可以用的

    9 对于连续变量,无论是自变量还是应变量,都需要取对数。

    🤩

    描述性统计是对假设检验提出的前提条件,是否符合需要进一步做假设检验。

    根据样本量抽样,通过线性回归的p值初步检验,在变量集中选出200-300个变量即可。

    分层抽样——how to 按照比例分层抽样

    how to 保证分层抽样的稳定系,按照不同自变量情况多分几个层次

    对分类变量可以做哑变量编码,会提高模型的准确性。保留K-1个哑变量

    用小写的ols ,因为有惩罚项。

    什么时候考虑交互项:在不同的变量对另外的应变量斜率是不同的

    对于数据分析的基本步骤

    1 观测因变量的数据分布情况 

        数据分布,最值情况,数据分位点情况

    2 观察自变量的分布情况

        离散变量的每个值的数据量,与因变量之间的关系

        连续变量的数值分布情况,与因变量之间的关系

    3 进行假设检验

        初步用线性回归模型预测数据

        

    相关文章

      网友评论

          本文标题:【数据分析商业实战】chapter4课程笔记

          本文链接:https://www.haomeiwen.com/subject/xhbezqtx.html