构造树的基本想法是随着树深度的增加,节点的熵迅速地降低。熵降低的速度越快越好,因为这样得到的树的高度最矮。让熵减小,就是说让确定性增加,也就是越来越能够做出判断。
Tips 2:学习率a的选择
学习率a是梯度下降算法的重要参数。如果选择过小,会使迭代次数过多,造成不必要的计算;如果选择过大,则会出现无法收敛的情况。
在选择适当的学习率的情况下,随着迭代次数的增加,代价函数应该是一个减函数,逐渐趋向于平滑。
当选定了一个a之后,我们可以利用自动收敛测试:
然而,0.001这个阈值的选择在实际过程中是很难选择的,因此,我们最好还是依靠图像来判断。
吴教授对a选定习惯:
网友评论