单解释变量的回归分析
利用最小二乘法求得的表示几个变量指标之前趋势的直线被称为回归直线
利用最小二乘法求回归直线,需要将解释变量实际值带入回归方程的求出推测结果,使实际结果和推测结果差的平方和最小化。
使用最小二乘法根据访问次数与签约数计算出回归直线这样我们可以发现访问次数每增加一次,平均能多签0.75份合同这一趋势。
在回归分析中最重要的是发现解释变量增加一个单位时outcome增长或减少多少,而表示outcome增加或者减少的“斜率”被称为回归系数
这个趋势仅是根据3个数据计算得来的,是可能存在偶然性的。如果有1个数据发生变化,回归系数就会有较大幅度改变。所以我们还要考虑回归系数的标准误差。我们需要根据有限且分散的数据来分析求得的回归系数,推测其与真实回归系数有多大程度的偏差。
在使用z检验时,平均值的标准误差是用“与平均值之差的平方”来计算出的,称为偏差平方和,偏差平方和除以数据量就是方差。而计算回归系数的标准误差所使用的是“outcome的预测值与实际值之差的平方和”,称为残差平方和,残差平方和除以数据量所得的值叫作均方。
由于数据量较小,应该用t分布来精准的计算标准误差和置信区间,本例中置信区间为-4.75~6.25,p值为0.33,也就是说这种这种趋势每3次就会偶然出现一次。
多解释变量的回归分析
寻找单个解释变量与outcome之间的关联性的回归分析被称为一元回归分析,但很多时候影响最终结果的变量不止一个。在变量遗漏、误读关联性就会直接影响趋势预测。
销售人员访问次数与签约数的散点图比如这样一组数据,在散点图阶段看不出有什么趋势,根据数据求回归方程得到y=3,也就是说拜访次数和签约数没有关系。但是如果我们又增加另一个维度的变量就不一样了,可以清晰的看到随着拜访次数增加,签约数量是有增加趋势的,并且女生需要更少的拜访就能签约更多客户。
标注性别的销售人员访问次数与签约数的散点图a在有多个解释变量共同影响结果时,让他可视化时发现趋势的一个好方法,但也有可能遗漏某些变量。
亚组分析时处理多变量的一种方法,根据亚组分析可以按照几个a解释变量为一组划分数据(每一组都称为一个亚组),可以每个亚组中访问次数与签约数的关系。亚组分析的方法非常简单,但是也存在局限,在当数据中包含的项目较多时,就需要查看大量的分析结果。
多元回归分析突破了亚组分析的局限,能够同时分析多个解释变量与outcome的关联性。多元回归可以将每组都画上“平行的回归直线”,这两个直线间的距离就反映了男女在访问次数相同时,签约数有多大的不同。
标注性别的销售人员访问次数与签约数的散点图b如果我们忽略性别,只考虑访问次数与签约数的关联性,假设所有的都是女生进行拜访,那么会得到拜访4次和5次的时候,签约数会按照蓝线的趋势进行分布。
标注性别的销售人员访问次数与签约数的散点图c多元回归首先是要找到核心解释变量和outcome的关系,然后从数值上推测亚组之间有多大差别,最后调整亚组的数字寻找正确的关联性。
小结
比起z检验、t检验、一元回归分析这样的基本方法,若实务中可能的解释变量很多,可以先用所有的解释变量进行多元回归分析,再寻找p值较小(p值小意味着偶然的概率更小)且回归系数较大(回归系数较大意味着对最终结果的影响较大)的解释变量,基于此定位到能定量描述解释变量和outcome变量趋势的回归系数,发现创造新利润的思路。
网友评论