决策树

前言

相信在疫情过后，人们会更加重视人工智能研发，这是因为在危险情况下或人手不足情况下，人工智能会代替人去做一些事情。那么机器学习作为人工智能一个重要分支。我们如果应聘机器学习的岗位，少不了被要求推导一些算法。今天我们就详细地介绍一下如何手推导一下决策树。

今天将讨论可以用于分类和回归任务的简单、非线性的模型——决策树。个人认为决策树相对于其他机器学习模型更容易理解，符合我们人类思考和对事物进行分类判断的逻辑。在现实生活中，我们处理一些问题时通常也是这样一步一步做出决策的。

分享介绍

目标
介绍什么是信息熵，条件熵、交叉熵和信息熵之间关系。很好理解这些概念有助于我们理解决策树是如何同信息增益来实现对样本的分类和预测的。
课程会介绍。为什么熵对于决策树，决策树生长过程就是降低熵过程，我们知道通过长出具有一定结构的树来将原来的混乱程度，混乱程度是信息熵来衡量的。联系到我们生活，社会有序化将人们聚集在一起共同生活，因为社会的规章制度和道德标准来降低一些不确定，避免发生人们之间不必要混乱的发生。
要求
需要具备一定概率和统计学基础知识。

决策树

dt_09.jpg

我们通过给决策树打上一些标签，帮助大家来更好地理解什么是决策树。

弱分类器
有监督学习
可以解决分类和回归问题

什么是决策树(定义)

在决策树我们可以根据数据的某一个特征，按某一个值对数据进行切分。那么选择哪一个特征，选择哪一个值来切分数据可以得到好效果是我们在决策树要研究的问题。以及我们通过什么指标来衡量数据。

决策树构成

dt_07.jpg

根节点(root node)
非叶子节点(internal node)
叶子节点(leaf node)每一个叶子节点都有一个分类值
分支(branch)

优点和缺点

决策树学习算法

我们通过选择样本特征做非叶子节点来对决策树进行分支，那么选择哪个一个特征作为分支依据呢?答案是选择哪个可以让信息熵最快降低的特征作为分支的节点。假设我们样本有 $f_1,f_2,\dots,f_m$ m 个特征，那么我们分别选择不同特征做为做法分类依据,信息熵变为 $H(X|f_i) \j i \in \{1,2,\dots,m\}$ 。那么样本信息增益就可以表示 $H(X) - H(X|f_i)$ 。选择让信息增益最大的 $f_i$ 作为分类依据特征。