在上期的分享中我们主要从理论方向来对判别分析有了一个较为清晰的了解,那么今天主要是基于经典案例对判别分析结合实际操作来进一步掌握其作用。今天采用的数据集为经典案例数据集:著名统计学家Fisher在1963年的Iris Data(鸢尾花数据集),分析软件为SPSS23.0。
鸢尾花为法国的国花,是法兰西王国的象征,是王国一切美德和繁荣昌盛的标志,向全世界昭示着法兰西王国的伟大,无与伦比的展示了法兰西王国的荣誉和崇高。
而Setosa(山鸢尾), Versicolor(变色鸢尾), Virginica(维吉尼亚鸢尾)是三种有名的鸢尾花,其萼片是绚丽多彩的,和向上的花瓣不同,花萼是下垂的。这三种鸢尾花很像,人们试图建立模型,根据萼片和花辫的四个度量来对鸢尾花分类。该数据集给出150朵鸢尾花的萼片长(sepal length)、萼片宽(sepal. width)、花瓣长(petal length)、花瓣宽(petal width)以及这些花分别属于的种类(Species)共五个变量。萼片和花瓣的长宽为四个定量变量,而种类为分类变量(取三个值:Setosa, Versicolor, Virginica)。这里三种鸢尾花各有50个观测值,总体个案数为150。
具体流程如下:
Step1:原始数据准备
原始数据集如上图所示:(由于篇幅原因只显示部分,需要完整数据集可以关注后留言获取哦~)
Step2:数据导入分析软件
同样打开SPSS软件,关于软件的界面我们在聚类分析方法的实操内容已经详细的分享了,没有阅读的小伙伴的要查看往期文章回顾哦~
数据导入软件后,注意变量的类型一定都要为数值型,字符串型数据无法进行运算的。
Step3:数据分析过程
在数据录入之后,点击分析-分类-判别,则可以得到如下图的画面:
我们在此界面中分别来勾选需要的指标,统计量中需要勾选均值、方差表和BOX’M统计量值,以及相关矩阵等等。
分类中我们需要勾选先验概率以及使用协方差矩阵,如下图所示:
最后点击确定,输出数据分析的结果。
网友评论