创建决策树可采用递归的形式。首先,选择一个属性作为根节点,为每个可能的属性组测产生一个分支,从而生成实例数为n的叶子节点。
确定属性节点
采用信息量来选择节点,计算每个属性下的信息量(信息量采用熵定义),单位是bit,依次计算每个属性的信息量。在创建任何初始树之前,计算初始信息量,根据实例的分类情况。接着,计算每个属性的信息增益,从而根据信息增益的大小选择节点作为根节点。
高度分支属性
当一些属性拥有的可能值的数量很大时,从而增加分支,可以得到如下结论:当采用信息增益的方法会倾向于选择拥有较多可能属性值的属性,为了弥补这个缺陷,采用增益率的度量来修正,其考虑了属性分裂数据集后所产生的子节点的数量和规模,忽略了任何有关类别的信息。
注:这里仅阐述了基本的信息增益算法ID3,在称为C4.5的决策树归纳的一个有用的算法,改进了ID3。
网友评论