决策树的构造
我们需要解决的第一个问题,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。
划分数据集的最大原则是:将无序的数据变得更加有序。我们可以使用多种方法划分数据集,每种方法各有优缺点。组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学。
熵定义为信息的期望值:
其中p(xi)是选择该分类的概率为了计算熵,我们需要计算所有类别所有可能值包含的信息期望值,通过下列公式得到:
其中n是分类的数目
网友评论