分类是从现有的带有类别的数据集中寻找同一类别数据的共同特征,并以这些特征为依据对新数据进行区分的一个过程
第一步是建立数据分类的基础模型,描述预定的数据类集或概念集,为建立模型而被分析的数据元组集合称为训练样本集。基础模型的建立往往借助某些分类算法进行的。分类算法通过分析训练样本数据集中的各个训练样本,提取出以非分类标识属性为前件,以分类标识属性为后件的分类规则,构建用于进行数据分类的基础模型。分类模型可用分类规则,判定树或数学公式的形式表示出来
第二步使用模型进行分类。一般情况下,在使用建立好的分类模型进行数据分类之前,首先要使用预先准备好的分类测试样本集测试模型的分类准确率,准确率若满足要求,则可使用模型对数据进行分类,否则则要返回第一步,重新建立分类模型,直到模型通过测试为止
精确度:分类问题中最常用的评价标准,它的值代表测试集中被正确分类的数据样本所占的比例,精确度反映了分类器对于数据集的整体分类性能
查全率和查准率:第j(1<=j<=m)个类别的查全率表示在本类样本中,被正确分类的样本所占的比例。而查准率表示被分类为该类的样本中,真正属于该类的样本所占的比例
F- Measure可以比较合理地评价分类器对每一类别的分类性能
几何均值为有效的评价标准,能够合理地评价数据集的整体分类性能
决策树:第一步是利用训练样本集来建立并精化出一颗决策树,建立决策模型。这个过程实际上是一个从数据库中获取知识,进行机器学习的过程。该过程通常分为两个阶段:建树和剪枝。第二步是利用建好的决策树对新的数据进行分类
决策树学习方法是以给定数据样本为基础的归纳学习方法。在给定已知类标号的数据集的情况下,决策树学习方法采用自顶向下的递归方式来产生一个类似于流程图的树结构。树的最顶层节点为根节点,最底层节点为叶节点,每个叶节点代表样本的类别或者类分布,根节点和叶节点之间的节点称为内部节点
决策树学习方法在根节点和各内部节点️根据给定的度量标准来选择最适合的描述属性作为分支属性,并且根据该属性的不同取值向下建立分支。对未知类标号的数据样本进行分类时,从根节点开始逐层向下判断,直到叶节点,得到该数据样本的类标号
网友评论