美文网首页SPSSAU数据分析入门教学
什么是判别分析?如何应用?

什么是判别分析?如何应用?

作者: spssau | 来源:发表于2019-08-26 10:31 被阅读0次

    判别分析最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.。慢慢的成为一种常用的分类分析方法,其通过已知的分类情况,根据数据的特征对其他研究对象进行预测归类。

    原理说明

    判别分析时,通常需要将数据分为两部分。一部分是训练模型数据,一部分是验证模型数据。首先通过训练集数据训练拟合出一个模型。接着再利用另一部分验证模型效果。如果在测试集数据上,也表现良好,那么说明拟合模型非常好。后面可以利用此模型用于预测其它“没有确定类别”的数据,来预测新数据的类别情况。

    应用场景

    判别分析与回归分析相似,可用于确定哪些预测变量与因变量相关,并在给定预测变量的某些值的情况下预测因变量的值。

    在实际生活中,判别分析也被广泛用于预测事物的类别归属。

    企业营销中,营销人员可通过已有的客户特征数据(如消费金额、消费频次、购物时长、购买产品种类等),预测当前的消费者属于哪种类型的顾客(款式偏好型、偏重质量型、价格敏感型...),并根据其特点有针对性的采取有效的营销手段。

    或是根据各成分含量指标,判断白酒的品牌或水果的产地等。

    除此以外,判别分析还可与聚类分析结合使用。比如,银行的贷款部门想要在发放贷款之前,可通过此方法判断申请人是否具有良好的信用风险。

    案例应用

    1、背景

    本次数据使用最为经典的鸢尾花卉数据集。此数据是判别分析中经典的案例数据。该数据是利用花萼长、花萼宽、花瓣长、花瓣宽共4个特征,来预测花的种类(共3类:分别是刚毛鸢尾花、变色鸢尾花和佛吉尼亚鸢尾花;下面全部是类别1,类别2和类别3表示)。数据共有150个样本,包括4个特征和一个预测类别。

     

    2、操作步骤

    使用路径:SPSSAU→进阶方法→判别分析

    3、结果分析

    ①模型训练集和测试集分布

    上表是对训练集和测试集整体数据分布的说明,包括样本量、样本比例。

    ②判别函数

    上表展示的是各类别对应的判别函数,结合判别函数和判别特征(自变量X),可计算得到判别分类结果,用于判别样本应该属于哪个类别。

    三类表达式分别为:

    类别1 = -674.591 + 21.420*花萼长 + 14.079*花萼宽-12.674*花瓣长-10.461*花瓣宽

    类别2 = -573.567 + 18.194*花萼长 + 2.091*花萼宽-1.226*花瓣长 + 4.804*花瓣宽

    类别3 = -774.160 + 17.001*花萼长 + 0.653*花萼宽 + 2.060*花瓣长 + 14.192*花瓣宽

     

    ③训练集预测准确率

    判别分析后可通过正确率,召回率和F1-score共三个指标判断训练集数据预测准确情况,三个指标值都是越大越好,SPSSAU建议此三个指标均大于70%。

    上表显示,三类的预测准确率均超过90%,说明训练集有很高的预测准确率。

    ④测试集预测准确率

    判别分析后更重要的在于查看测试集数据模型预测准确情况。

    上表展示测试集即30个样本数据的预测准确率;上表显示整体正确率为100%。也即说明测试集显示数据全部预测准确,没有预测出错的现象。模型拟合质量非常高。

     

    4、确定未分类数据组别

    确定了最终的模型,即可将其他未分类数据分别代入3个公式得到每个判别类别的判别分,对应分值最高的类别,就为最终归属类别。最终将得到的结果,整理为下表:

    总结:编号1样本,最终归类为类别1,属于刚毛鸢尾花。编号2样本,最终归类为类别3,属于佛吉尼亚鸢尾花。编号3样本,最终归类为类别3,属于佛吉尼亚鸢尾花。

    登录SPSSAU官网体验在线数据分析​​​​

    相关文章

      网友评论

        本文标题:什么是判别分析?如何应用?

        本文链接:https://www.haomeiwen.com/subject/zqqrectx.html