美文网首页
4. 挖掘建模1 分类与预测

4. 挖掘建模1 分类与预测

作者: 何大炮 | 来源:发表于2018-03-29 14:01 被阅读0次

分类与预测

分类:构造一个分类模型,输入样本的属性值,输出对应类别
预测:建立两种或者两种以上变量间相互依赖的函数模型
实现过程:学习(通过样本得到数据模型或者分类模型)->检验后预测

常用分类和预测的算法

  1. 回归分析:线性回归,非线性回归,logical 回归(因变量只有0或者1),岭回归(参与建模的自变量之间具有多重共线性),主成分回归

  2. 决策树:树状结构,每一个叶节点对应一个类,非叶节点对应一个某个属性的划分。
    核心问题:如何在每一步选择适当的属性对样本进行拆分。

决策树算法:
CART算法:非参数分类和回归方法,通过构建,修剪,评估来构建一个二叉树。当终结点是连续变量时,该树为回归树;反之则为分类树。
基尼指数(表示在样本集合中一个随机选中的样本被分错的概率)来选择节点属性,基尼指数越小不确定性越小。

C4.5:算法使用信息增益率来选择节点属性,连续和离散的属性都可以处理(单点逐一离散化,寻找信息增益率最大的分裂点)。
gain_rate(D,A) = gain(D,A)/条件熵(D,A)
弱化因为特征取值多的特征(条件熵越大,该变量的在该条件下不确定性的度量越大),让选择最优特征时更加公平

ID3算法:在数据集中找出最优特征,然后是最优候选值(一般是二分类,多分类让特征值变得敏感),分类。
信息增益值Gain(D,A)来确定每个节点的最佳分类属性,Gain(D,A)越大表明属性A对于分类提供的信息越大,选择A后对分类的不确定程度越小。减小了树的平均深度。

缺点:倾向于取的高度分支属性(信息增益偏向于那些拥有很多取值的特征),不一定是最优的属性;只能处理离散属性。
Gain(D,A) = (A) - 条件熵(D,A)----在该条件下该变量不确定性的减少程度。
停止分支的条件:树的深度;叶节点的纯度;子节点样本数。

  1. 人工神经网络:
    人工神经网络算法
    BP神经网络
    LM神经网络
    RBF径向基神经网络

分类预测算法评价

用一组独立的数据集作为测试集来评价预测模型的准确率。
衡量标准:

  1. 绝对误差和相对误差
  2. 平均绝对误差
  3. 均方绝对误差
  4. kappa统计(取在【0,1】之间)
  5. 识别准确度,识别精确度,反馈率
  6. ROC曲线

相关文章

  • 4. 挖掘建模1 分类与预测

    分类与预测 分类:构造一个分类模型,输入样本的属性值,输出对应类别预测:建立两种或者两种以上变量间相互依赖的函数模...

  • 第一章 数据挖掘基础

    数据挖掘的基本任务:分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐数据挖掘建模过程:1)定义挖掘目标...

  • 第五章 挖掘建模

    经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、...

  • python数据分析与挖掘 | 挖掘建模

    经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立模型,包括:分类与预测、聚类分析...

  • 《python数据分析与挖掘实战》之挖掘建模

    经过数据探索与数据预处理,我们得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规...

  • 数据挖掘任务

    预测建模 分类:离散 回归:连续 关联分析 聚类分析 异常检测仪 练习题: 1.以下是否是数据挖掘任务。 a.根据...

  • 第五章-挖掘建模

    经过数据探索和数据预处理,得到了可以直接建模的数据。数据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、...

  • 2018-10-19

    Python与数据挖掘(二)——逻辑回归 逻辑回归一般用来实现分类 一、算法原理 1、预测函数 2、将预测函数的输...

  • Python数据挖掘010-分类与回归建模

    数据挖掘可以大概分为:分类与回归,聚类分析,关联规则,时序模式,异常检测等模型。 分类主要是预测分类标号,即离散属...

  • Day5|Python数据分析与挖掘实战|ARIMA模型

    时间序列分析 主要内容 1.平稳性检验 2.白噪声检验 3.建模定阶ARIMA(0,1,1)建模 4.预测 htt...

网友评论

      本文标题:4. 挖掘建模1 分类与预测

      本文链接:https://www.haomeiwen.com/subject/oidmcftx.html