数据分析之自动线性建模

作者: 黄成甲 | 来源:发表于2018-08-31 23:58 被阅读31次

自动线性建模的特点主要有:

(1)连续变量、分类变量均可作为自变量参与建模;

(2)能自动寻找对因变量重要性最大的自变量,舍弃重要性很小或不重要的自变量;

(3)自动进行离群值和缺失值等处理,并输出一系列图表来展示回归模型的效果及相关信息;

文/黄成甲

模型评价

一般模型建立后,需要从统计学方法论的角度来评价模型建立的效果,如果有多组变量组合就可能建立多组模型,那么久需要得知其中哪些模型效果较好,需要保留,哪些模型效果较差,需要淘汰掉。

评价标准之一就是信息条件,也称为信息准则。在SPSS所有的统计过程中,常见的信息准则有AIC(赤池信息量准则)、BIC(贝叶斯信息量准则)两种,而AICC准则是为了适应小样本数据,在AIC准则准则公式的基础上进行调整修正,适用于任何样本量,AIC准则只适用于大样本数据,所以AICC准则更为通用。信息准则的数值越小表示模型越好,但没有绝对的数值大小标准,只需要通过不同模型的信息准则进行对比选择较优的即可。

模型摘要

模型摘要图用进度条来展现模型拟合的效果。它类似于普通线性回归中的R平方(决定系数),一般模型准确度大于70%就算拟合的不错,60%以下就需要修正模型,可以通过增加或删除一些自变量后再次建模进行修正,本例中模型准确度达到了94.8%,效果不错。

预测-实测散点图

预测-实测散点图用于考察预测效果,如果效果较好,数据点应该是在一条45度线上分布的。

残差图

残差是指实际值与预测值之间的差,残差图用于回归诊断,也就是用来判断当前模型是否满足回归模型的假设:回归模型在理想条件下的残差图是服从正态分布的,也就是说,图中的残差直方图和正态分布曲线是一致的。

离群值

库克距离越大的个案对回归拟合影响的程度越大,此类个案可能会导致模型准确度下降。

回归效果图

回归效果图用于展示及比较各个自变量对因变量的重要性。每个显著的连续变量均会作为一个模型项,并对应一条线条,如果有显著的分类变量纳入模型,那么模型将分类变量的每一种显著的类别分布作为模型项,并分布对应一条线条。

线条上下顺序是按照自变量的重要性大小降序排列的,由此可以判断各个自变量的重要性。线条粗细则表示显著性水平,显著性水平越高其线条越粗。

相关文章

  • 数据分析之自动线性建模

    自动线性建模的特点主要有: (1)连续变量、分类变量均可作为自变量参与建模; (2)能自动寻找对因变量重要性最大的...

  • 13自动线性建模

    --------------- 一。。。。 分析--回归--自动线性建模-- 将“购买用户数”移置目标 日期 移置...

  • 树回归

    原理: 将数据集切分成很多份易建模的数据 利用线性回归技术建模 优点 可以对复杂和非线性的数据建模 缺点 结果不易...

  • (17)自动线性建模

    自动线性建模特点: 1)连续变量和分类变量都可以作为自变量进行线性自动建模。 2)能自动寻找对因变量重要性最大的自...

  • 常用线性回归模型

    多元线性回归 多元线性回归是最常用的预测数值型目标的建模方法,也常用于数据分析中的多因素分析。后面几种回归都是在它...

  • 逻辑回归理论推导及如何应用于多分类

    logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济...

  • 10. 线性回归

    回归算法-线性回归分析 线性回归定义:线性回归通过一个或多个自变量与因变量之间进行建模的回归分析,其中可以为一个或...

  • Tensorflow的基本使用 以线性回归为例

    参考来源:博客链接 使用线性模型来对数据点进行建模。线性模型的数学表示是: (1) TensorsTensorFl...

  • Logistic回归分析实例

    Logistic回归,即Logistic回归分析,是一种广义的线性回归模型,常用于数据挖掘,疾病自动诊断,经济预测...

  • 回归算法对比

    线性回归 优点:建模迅速,对于小数据量、简单的关系很有效;易理解。 缺点:不能处理非线性;不能处理数据特征间具有相...

网友评论

    本文标题:数据分析之自动线性建模

    本文链接:https://www.haomeiwen.com/subject/ddqewftx.html