美文网首页
【数据科学家学习小组】之机器学习第一期第七周作业

【数据科学家学习小组】之机器学习第一期第七周作业

作者: 行走读书生活 | 来源:发表于2019-12-22 23:32 被阅读0次

    决策树分析是一种什么算法?

    决策树算法利用了信息熵和决策树思维:

    • 信息熵越小的数据集,样本的确定性越高,当数据集的信息熵为 0 时,该数据集中只有一种类型的样本;
    • 训练数据集中有很多类型的样本,通过对数据集信息熵的判断,逐层划分数据集,最终将每一类样本单独划分出来;
    • 划分数据集的方式有很多种,只有当按样本类别划分数据集时(也就是两部分数据集中不会同时存在相同类型的样本),划分后的两部分数据集的整体的信息熵最小;反相推断,当两部分数据集的整体的信息熵最小时,则两部分数据集中不会同时存在相同类型的样本;

    信息熵与最优划分

    信息熵就是信息的期望值,所以我们可知,信息熵越越小,信息的纯度越高,也就是信息越少,在分类领域来讲就是里面包含的类别越少,所以我们可以得出,与初始信息熵的差越大分类效果越好。

    基尼系数

    基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小;

    1. G 越大,数据的不确定性越高;
    2. G 越小,数据的不确定性越低;
    3. G = 0,数据集中的所有样本都是同一类别;

    CART

    分类与回归树(classification and regression tree, CART)既可以用于回归也可以用于分类。使用二元切分法来处理连续型数值。

    CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是输入给定的条件下输出的条件概率分布。

    使用基尼系数作为数据纯度的量化指标构建决策树。CART算法使用Gini增长率作为分割属性选择的标准,选择Gini增长率最大的作为当前数据集的分割属性。
    (以上内容部分摘自:https://blog.csdn.net/choven_meng/article/details/82878018

    相关文章

      网友评论

          本文标题:【数据科学家学习小组】之机器学习第一期第七周作业

          本文链接:https://www.haomeiwen.com/subject/ggpanctx.html