8.2Seminar
1、协方差的意义
度量两个随机变量变化趋势的协同程度
正负代表两个变量变化趋势是否相同
大小代表两个变量变化趋势协同程度
2、皮尔逊相关系数的公式为什么是这样
上面是协方差
下面是两个随机变量的标准差
协方差已经可以度量相关性,只不过为了不同量纲的相关系数的方便比较,因此将值归一化到[0,1],(下面除以标准差),统一量纲。
Q:为什么皮尔逊相关系数要求两个变量遵循正态分布?
A:...
3、高斯分布
高斯分布本质是世界中各个变量取值的规律。可通过误差取值的分布推导,可通过二项分布的极限推导。
4、卡方值
卡方值计算公式通过卡方值比较两个分布是否相似 / 分析单个分类变量实际观测的比例与期望比例是否相同 / 判断一个分布是不是正态分布 / 判断一个分布接近正态分布的程度。
式中np是理论样本/样本1的值,f是实际样本/样本2对应相同分类的值。
卡方值分母是理论上的均值(例A[4]:70%,B[6]:30) 4* 0.7 + 6 * 0.3 = 4.6
卡方值分子是另一个样本中相同类的样本1的值减去样本2的值。
之所以为了除以分母是为了统一量纲,归一化。
(为什么不用绝对值而是取平方?因为为了除以分母之后变为1次方[归一化],为什么要除分母,归一化)
注1:这里归一化也不是完全的归一化。例如自由度为1,最大为1,自由度为2,最大为2。因此我们在查表时不仅要有卡方值,也要有自由度,才能得出来在这个卡方值对应的小概率(p-value)是多少。之后再根据p-value的大小判断变量的显著关系,分布的相似程度。
注2:比较计算出来的卡方值与P-value在95%/90%对应的卡方值,如果小于的话,就代表该卡方值代表p-value对应的卡方值的左面,代表该卡方值对应的情况发生的概率大于p-value对应的小概率事件发生的概率,代表我有90%/95%的概率说两个变量是相似的。
5、卡方拟合优度检验
在科学研究中,经常假设收集的数据服从某一个分布F,我们通常对数据是否服从假定的分布F进行统计检验,该检验称为拟合优度检验。
首先根据两个分布计算出来卡方值,由于卡方值是服从卡方分布的,因此我们可以依据卡方分布的概率公式和计算出来的卡方值计算出来此卡方值对应的相似性情况出现的概率是多少[是否属于小概率事件所包含的范围(小概率时间所包含的范围)]。
具体来说如何判断该卡方值是否属于小概率事件包含的范围实际上是由该卡方值对应的p-value与0.05相比较得来的。
6、回归模型
Regress -> Regression 退化
用所有数据拟合出我们实现设定好的有个方程,通过每一个数据更新事先设定好的参数。事先设定好的参数间可能独立(x1+x2),也可能不独立(x1 * x2)。
7、残差
实际观测值与估计值之间的差。
最小二乘法:最小化残差。套路,规律总结成计算公式。
网友评论