1. 决策树算法简介
- 总结:分类的一种,根据算信息增益确定树根和树干。
决策树分类的主要仸务是要确定各个类别的决策区域,或者说,确定不同
类别之间的边界。在决策树分类模型中,不同类别之间的边界通过一个树
状结构来表示
- 需要思考的问题:
- 最大高度 = 决策属性的个数
- 树越矮越好
- 要把重要的好的属性放在树根
2. 决策树过程:
1 开始时,所有的训练集样本都在树根
2 属性都是可分类的属性(如果是连续值的话,先要对其进行离散化)
3 决策树分类第一步:选择属性,作为树根
3.1. 比较流行的属性选择算法:信息增益
3.2. 信息增益最大的属性被认为是最好的树根
- 停止划分的条件:
1 某个节点上的所有样本都属于相同的类别
2 所有属性都用到了– 采用多数有效法对叶子节点分类
3 没有样本了
3. 如何计算信息增益
- 公式
- 一个例子
参考资料: 数据库系统概论(新技术篇) 第六讲 分类技术
2018.4.27
网友评论