美文网首页
分类算法

分类算法

作者: Tim_Chen | 来源:发表于2017-04-30 13:56 被阅读0次
    • 决策树

    算法:
    用一个属性划分数据集,可以产生分类更纯的子集。(不纯性度量)因此,不断划分,就能确定分类。
    为了更有效地选择属性进行划分,以不纯性的增益or增益率来衡量。
    ~
    特点:
    a.以不纯性的增益or增益率来衡量,通常可以很好地选择属性,因此冗余属性通常不会对决策树的准确性造成影响。但不相关的属性很多,可能会被选中,影响决策树的准确性。
    b.划分产生的决策边界是直线的,因此会限制了复杂关系了建模能力。可以采用“构造归纳”方法,提供一些由复杂模型构造的新属性。
    c.分治划分策略,可能会产生子树重复的问题。
    d.不断划分导致样本太小时,不能再进行有效的划分,“数据碎片”问题,可以当样本数小于某个特定的阈值停止分裂。
    ~
    步骤:
    一、对于特点a,b,需要对数据进行预处理,删除冗余属性,尝试构建新属性
    二、对于特点c,d,需要在决策树归纳过程中处理,可以采用:
    1.先剪枝:设定停止增加叶节点的条件:不纯性度量增益低于特定阈值等
    2.后剪枝:用叶节点替换子树、用子树中最常使用的分支替换子树
    三、模型外的措施:
    1.多次重复建模,估计泛化误差:随机二次抽样、交叉验证、自助法...
    2.比较多个模型进行选择:估计泛化误差的置信区间、比较两种分类法性能差异的显著性

    • 基于规则的分类器

    算法:
    在相同的分类中,寻找规则,使之有较优的覆盖率和准确率。

    规则评估:似然比统计量、laplace、m统计量、FOIL信息增益
    RIPPER算法:
    1.按类的频率对类进行排序,从最不频繁的类开始提取规则
    2.从一般到特殊的策略进行规则增长,使用FOIL信息增益进行评估
    3.以最小描述长度原则作为终止条件

    • 最近邻分类器

    消极学习算法(lazy learner)
    算法:
    当一个需要预测一个测试样例的时候,在训练集中找到相似的K个样例,以多数表决的方式进行预测。
    也可以用,距离加权表决。
    特点:
    1.不需要建立模型,但分类测试样例的开销很大。
    2.基于局部的信息进行预测,对噪声的非常敏感。
    3.需要采用适当的邻近性度量和数据预处理,否则很可以做出错误的预测。

    • 贝叶斯分类器

    在条件X(属性X=x1)成立的时,以某分类的频率,作为概率。
    ~
    A.朴素贝叶斯分类器
    P(Y|X) = P(X|Y)P(Y)/P(Y|X)
    假设属性之间条件独立
    P(Y|X) = P(Y)πP(Xi|Y)/P(X)
    连续属性的条件概率:属性离散化、对于每一类,用高斯分布拟合
    某些类属性样本较少,用m估计来估计条件概率,防止为0。
    ~
    特征:
    1.对孤立的噪声点,估计条件概率时这些点会被平均,朴素贝叶斯分类器是健壮的
    2.对于无关属性,均匀分布不会影响条件概率
    3.贝叶斯假设条件独立,相关属性会降低朴素贝叶斯分类器的

    • 人工神经网络ANN

    核心思想:
    1.感知器:根据感知器的输出与目标的差异来更新输入链的权值
    2.多层神经网络,能够近似任何函数,处理冗余特征,本质上是在构造复杂的特征,需要防止过拟合。
    3.对噪声十分敏感,使用确认集来确定模型的泛化误差
    4.经常收敛到局部最小值,在权值更新公式中加上一个动量项。

    • 组合方法

    核心思想:

    相关文章

      网友评论

          本文标题:分类算法

          本文链接:https://www.haomeiwen.com/subject/nylzzttx.html