微软决策树-挖掘模型建立及应用;学习使用Microsoft决策树创建OLAP数据挖掘模型;深入理解决策树分类的数据挖掘意义。
1.打开程序->Microsoft SQL Server 2008->SQL Server Management Studio,启动SQL Server 2008数据库,用Windows身份登录,新建一个数据库名为ysy,导入数据,选择示例数据用Excel导入,成功导入界面如图所示。

2.导入的数据的界面。

3.打开程序->Microsoft SQL Server 2008->SQL Server Business Intelligence Development Studio,启动SQL Server 2008 BI的开发环境。在“文件”菜单上,指向“新建”,然后选择“项目”。选中“项目类型”窗格中的“商业智能项目”。选中“模板”窗格中的“Analysis Services项目”。在“名称”框中,将新项目重命名,单击“确定”。在右边的窗口可以看到有以下几项:数据源;数据源视图;挖掘结构等.......

4.右击数据源->新建数据源->点击新建-填写服务器名(本机服务器用.即可)->选择到ysy->测试连接,如果成功点确定->下一步->使用服务账户(这一步很关键)->即可完成。

5.右击数据源视图->新建视图->下一步->下一步->下一步->选择我们想要进行分析的表为三国勾选上->完成。就会出现这样的视图。

6.右击挖掘结构->新建->下一步->选择现有关系数据库->此处会显示有很多种算法的选择,我们选择Microsoft决策树->点击下一步->事例选中三国-指定数据键值为序列号,可预测为身份,剩下的输入项可以通过建议去掉没什么关联的,将属性自动分为连续型、离散型、可连续化的以及序列的(这一步也可通过自己判断)->在“创建测试集”页面中,设置“测试数据百分比”(一般测试集百分比为30%)->点击下一步->名称,允许钻取勾选上


7.完成后,即可看到右边窗口出现这样的三个文件。

8.右击挖掘结构下面的三国.dmm文件->处理-运行->关闭
(可能会出现这样的问题:服务器角色没有权限,这时就需要返回到SSMS中查看多赢的角色,显示只勾选到了public选项,赋予它sysadmin管理员的职能,再次运行即可)

9.选择挖掘模型查看器即可看到通过决策树的算法进行的结果分析。

10.通过观察发现当武力值在60到78.8之间的数据分析不是很明显,所以解决办法就是:
点击挖掘模型右击设置算法参数->最上面的Microsoft_Decision_Trees->在MINIMUM_SUPPORT项中值得地方填上5,点击确定后,完成。


11.再次查看决策树的画法可以看到在武力值在60到78.8之间的数据分析又进行了政治的分析:

12.通过观察依赖关系网络,将所有链接拉到最强链接,发现武力值对身份的影响是最大的:

13.通过挖掘模型预测结果的界面,在选择事例表中选择三国这张表

14.左上角选择单独查询->输入要预测人的各项输入值->输入完成后,将左边的身份即预测项拖动放进源里面

15.点击左上角查看结果切换到即可预测身份;

16.假如说想更换属性的状态,比如当出身不是很影响身份的预测,我们即可将出身的input选择为忽略即可。

17.通过提升图,可以清楚的看到预测值和准确值的差别。

实验总结:在这次的实验当中,看似简单的过程,中间还是出现了各种问题,比如在挖掘结构处理过程中用户角色没有权限,对数据属性是连续、离散、可连续化还是序列的判断不是很准确,判断是否关联性大景城有错误,导致决策树的不准确。决策树有时候画出来分叉很多,有时候发现当某一属性在一个区间之间的数据分析不是很明显,需要再次构造一个有明显的区别的树等等。而且对该软件还不是很熟悉,操作起来还是需要步骤的详细解释,有些要注意的步骤还是要更注意,比如如果不选择可以钻取数据的话到时候就不能对数据进行操作,所以要根据实际情况进行操作。
网友评论