- R语言机器学习算法实战系列(一)XGBoost算法+SHAP值(eXtreme Gradient Boosting)
- R语言机器学习算法实战系列(二) SVM算法+重要性得分(Support Vector Machine)
- R语言机器学习算法实战系列(三)lightGBM算法+SHAP值(Light Gradient Boosting Machine)
- R语言机器学习算法实战系列(四)随机森林算法+SHAP值 (Random Forest)
- R语言机器学习算法实战系列(五)GBM算法+SHAP值 (Gradient Boosting Machines)
- R语言机器学习算法实战系列(六)K-邻近算法 (K-Nearest Neighbors)
- R语言机器学习算法实战系列(七)朴素贝叶斯分类算法 (Naïve Bayes Classifier)
- R语言机器学习算法实战系列(八)逻辑回归算法 (logistic regression)
- R语言机器学习算法实战系列(九)决策树分类算法 (Decision Trees Classifier)
- R语言机器学习算法实战系列(十)自适应提升分类算法 (Adaptive Boosting)
- R语言机器学习算法实战系列(十一)MLP分类算法 (Multi-Layer Perceptrons)
- R语言机器学习算法实战系列(十二)线性判别分析分类算法 (Linear Discriminant Analysis)
介绍
随机森林是常用的非线性用于构建分类器的算法,它是由数目众多的弱决策树构建成森林进而对结果进行投票判断标签的方法。
随机森林用于分类器的算法过程,
- 随机切分样本,然后选择2/3用于建模,剩余1/3用于验证袋外误差;
- 随机选择特征构建决策树,每个叶子节点分成二类;
- 根据GINI系数判断分类内部纯度程度,进行裁剪树枝;
- 1/3数据预测,根据每个决策树的结果投票确定标签;
- 输出标签结果,并给出OOB rate
随机的含义在于样本和特征是随机选择去构建决策树,这可以有效避免偏差,另外弱分类器组成强分类器也即是多棵决策树组成森林能提升模型效果。
教程
本文旨在通过R语言实现Random forest,总共包含:
- 下载数据
- 加载R包
- 数据预处理
- 数据描述
- 特征选择
- 数据切割
- 调节参数
- 构建模型
- 预测测试数据
- 评估模型
- 特征的重要性
- 模型SHAP值解释
- 保存模型
- 总结
- 系统信息
网友评论