【数据分析商业实战】chapter4课程笔记

作者: 深海suke | 来源:发表于2019-07-13 10:12 被阅读0次

【数据分析商业实战】chapter4课程笔记
以FMCG行业为例的增长策略学习
某商城销售数据分析
6000 字思维导图告诉你什么是真正落地的业务数据分析
Python Pandas 选出指定类型的所有列，统计列的各个类
PEST分析法/PESTEL分析模型
Udacity 商业数据分析课程笔记
[培训]Spark大型项目实战：电商用户行为分析大数据平台（高端
《互联网业务数据分析实战》业务理解、选取数据指标学习笔记
《数据分析与挖掘实战》笔记之-航空公司客户价值分析（1）

本章主要知识点为：参数估计，假设检验，方差分析，相关分析，线性回归。

1 均值的误差为标准误，是均值的误差，其计算公式为样本的标准差/样本数开根号

2 无论任何分布的均值都是正态分布，因为中心极限定律。均值的样本数越多，正态分布的拟合程度就越高。

3 qq图是用于检测样本的是否符合正态分布，其对角线为正态曲线，在曲线上的点越多，则其越符合正态曲线。

4 落在蓝色区域拒绝，在白色区域之内接受原假设。

# 假设检验

1 假设真假设和反面假设

2 确定置信度

小于100 90%

100-500 5%

500-1000 1%

3 收集数据

4 看样本和均值的绝对的差是几倍的样本均值的标准误

t = （样本均值-假设均值）/ 标准误

z值越大说明约不靠谱哈哈哈

p值为两边的面积的和

一般样本量不超过5000

# 两独立样本T检验

其检验均值是否相同

p值显著 ——小于设定的显著度

levene 方差齐性检验

1 方差相等 or 2 方差不相等

相等与否对检验差异影响不大

# 方差分析

sst 总体变异——全部的离差平方和

sse 组内变异——组内的离差平方和

ssm组间变异——组均值和均值的离差平方和

F = 【ssm/自由度】/【sse/自由度】越大越好，但是这个值算出来之后要依据经验来判定是否合适

# 相关分析

# 查看两个变量之间的关系，一个标量该改变另外一个变量的均值是否有关系

相关系数person相关——查看线性关系

对于发散变量取对数

# 线性回归

1 线性关系

2 抛物线关系

3 对数关系

在变量显著的情况下（第二个表P值很小的时候），这个变量才是对结果有意义的。不显著的变量可以直接删除，

coef表示每增长10000个单位 INcome增长97

不懂呀！！！

Intercept 是截距项

在上面第一个表示用来做模型结果评价的，

R-squared 是用于描述模型优劣的，是模型的结实度

ADJ R-squared 在多个模型比较的时候有意义，用于选择模型用

Prob 用于看模型的显著度，只要有一个变量显著就是显著的

AIC、BIC用于筛选莫模型

后面是对残差的检验。

R方的解释

多元线性回归

去除无法提供增量信息的X（也就是去除共线的X）

AIC/BIC 越小模型越好

逐步加变量（n^2/2）

step1 两两检验，逐步筛选，随机森林（更具变量的数据量），iv（一个要计算几秒或者几十秒），最后逐步法

线性回归在正态分布式稳定的，不正态的环境下非稳定。

作业笔记

1 对于左偏数据需要对数据进行对数处理

2 一般在做检验的过程中样本量不宜超过5k，作业的样本量为16k，这个数据可用于统计性描述，单不建议用于假设检验中。

？ 3 how to 在describle中对数值型的分类变量进行分类

4 一般直方图的柱子在20-50之间最佳

5 在看最大最小值的时候需要看到样本最本质的细节状态

6 在做离散变量对因变量的观测时，最好能按照中数单调递增或者单调递减的方式来进行。如果中位数值与下个箱子的下边界重合，说明有明显差异。

7 做两个自变量的相关关系可以判断自变量的值是否共线

8 在做变量相关性分析的时候，如果变量相关性过小，回归分析的时候还是可以用的

9 对于连续变量，无论是自变量还是应变量，都需要取对数。

🤩

描述性统计是对假设检验提出的前提条件，是否符合需要进一步做假设检验。

根据样本量抽样，通过线性回归的p值初步检验，在变量集中选出200-300个变量即可。

分层抽样——how to 按照比例分层抽样

how to 保证分层抽样的稳定系，按照不同自变量情况多分几个层次

对分类变量可以做哑变量编码，会提高模型的准确性。保留K-1个哑变量

用小写的ols ，因为有惩罚项。

什么时候考虑交互项：在不同的变量对另外的应变量斜率是不同的

对于数据分析的基本步骤

1 观测因变量的数据分布情况

数据分布，最值情况，数据分位点情况

2 观察自变量的分布情况

离散变量的每个值的数据量，与因变量之间的关系

连续变量的数值分布情况，与因变量之间的关系

3 进行假设检验

初步用线性回归模型预测数据

网友评论

本文标题：【数据分析商业实战】chapter4课程笔记

本文链接：https://www.haomeiwen.com/subject/xhbezqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【数据分析商业实战】chapter4课程笔记

# 假设检验

# 两独立样本T检验

# 相关分析

多元线性回归

作业笔记

相关文章

【数据分析商业实战】chapter4课程笔记

以FMCG行业为例的增长策略学习

某商城销售数据分析

6000 字思维导图告诉你什么是真正落地的业务数据分析

Python Pandas 选出指定类型的所有列，统计列的各个类

PEST分析法/PESTEL分析模型

Udacity 商业数据分析课程笔记

[培训]Spark大型项目实战：电商用户行为分析大数据平台（高端

《互联网业务数据分析实战》业务理解、选取数据指标学习笔记

《数据分析与挖掘实战》笔记之-航空公司客户价值分析（1）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读