美文网首页
4. 挖掘建模1 分类与预测

4. 挖掘建模1 分类与预测

作者: 何大炮 | 来源:发表于2018-03-29 14:01 被阅读0次

    分类与预测

    分类:构造一个分类模型,输入样本的属性值,输出对应类别
    预测:建立两种或者两种以上变量间相互依赖的函数模型
    实现过程:学习(通过样本得到数据模型或者分类模型)->检验后预测

    常用分类和预测的算法

    1. 回归分析:线性回归,非线性回归,logical 回归(因变量只有0或者1),岭回归(参与建模的自变量之间具有多重共线性),主成分回归

    2. 决策树:树状结构,每一个叶节点对应一个类,非叶节点对应一个某个属性的划分。
      核心问题:如何在每一步选择适当的属性对样本进行拆分。

    决策树算法:
    CART算法:非参数分类和回归方法,通过构建,修剪,评估来构建一个二叉树。当终结点是连续变量时,该树为回归树;反之则为分类树。
    基尼指数(表示在样本集合中一个随机选中的样本被分错的概率)来选择节点属性,基尼指数越小不确定性越小。

    C4.5:算法使用信息增益率来选择节点属性,连续和离散的属性都可以处理(单点逐一离散化,寻找信息增益率最大的分裂点)。
    gain_rate(D,A) = gain(D,A)/条件熵(D,A)
    弱化因为特征取值多的特征(条件熵越大,该变量的在该条件下不确定性的度量越大),让选择最优特征时更加公平

    ID3算法:在数据集中找出最优特征,然后是最优候选值(一般是二分类,多分类让特征值变得敏感),分类。
    信息增益值Gain(D,A)来确定每个节点的最佳分类属性,Gain(D,A)越大表明属性A对于分类提供的信息越大,选择A后对分类的不确定程度越小。减小了树的平均深度。

    缺点:倾向于取的高度分支属性(信息增益偏向于那些拥有很多取值的特征),不一定是最优的属性;只能处理离散属性。
    Gain(D,A) = (A) - 条件熵(D,A)----在该条件下该变量不确定性的减少程度。
    停止分支的条件:树的深度;叶节点的纯度;子节点样本数。

    1. 人工神经网络:
      人工神经网络算法
      BP神经网络
      LM神经网络
      RBF径向基神经网络

    分类预测算法评价

    用一组独立的数据集作为测试集来评价预测模型的准确率。
    衡量标准:

    1. 绝对误差和相对误差
    2. 平均绝对误差
    3. 均方绝对误差
    4. kappa统计(取在【0,1】之间)
    5. 识别准确度,识别精确度,反馈率
    6. ROC曲线

    相关文章

      网友评论

          本文标题:4. 挖掘建模1 分类与预测

          本文链接:https://www.haomeiwen.com/subject/oidmcftx.html