Python数据分析与机器学习24-集成算法与随机森林

Python数据分析与机器学习24-集成算法与随机森林

作者: 只是甲 | 来源:发表于2022-07-22 16:49 被阅读0次

Python数据分析与机器学习24-集成算法与随机森林
机器学习算法概述：随机森林&逻辑回归
《Scikit-Learn与TensorFlow机器学习实用指南
使用随机森林判定特征的重要性
2021新书:《Python机器学习算法与实战》
机器学习笔记2_决策树
【算法周】啥都能干的“随机森林”，你值得拥有！
Python学习笔记
机器学习与深度学习目录
kaggle博客

一. 集成算法概述

目的：
让机器学习效果更好，单个不行，群殴走起

分类:

Bagging
训练多个分类器取平均

image.png
Boosting
从弱学习器开始加强，通过加权来进行训练
（加入一棵树，要比原来强）

image.png
Stacking
聚合多个分类或回归模型（可以分阶段来做）

二. Bagging模型

全称：bootstrap aggregation（说白了就是并行训练一堆分类器）
最典型的代表就是随机森林啦

随机：
数据采样随机，特征选择随机

森林：
很多个决策树并行放在一起

image.png

随机森林:
构造树模型：

image.png
由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样

Bagging模型：
树模型：

image.png

image.png
之所以要进行随机，是要保证泛化能力，如果树都一样，那就没意义了！

随机森林优势:
它能够处理很高维度（feature很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些feature比较重要
容易做成并行化方法，速度比较快
可以进行可视化展示，便于分析

image.png

Bagging模型：
KNN模型：

image.png

image.png
KNN就不太适合，因为很难去随机让泛化能力变强！

树模型：

image.png

理论上越多的树效果会越好，但实际上基本超过一定数量就差不多上下浮动了

三. Boosting模型

典型代表：
AdaBoost，Xgboost
Adaboost会根据前一次的分类效果调整数据权重

解释：
如果某一个数据在这次分错了，那么在下一次我就会给它更大的权重

最终的结果：
每个分类器根据自身的准确性来确定各自的权重，再合体

Adaboost工作流程:
每一次切一刀！
最终合在一起
弱分类器这就升级了！

image.png

四. Stacking模型

堆叠：
很暴力，拿来一堆直接上（各种分类器都来了）
可以堆叠各种各样的分类器（KNN,SVM,RF等等）

分阶段：
第一阶段得出各自结果，第二阶段再用前一阶段结果训练
为了刷结果，不择手段！

image.png

堆叠在一起确实能使得准确率提升，但是速度是个问题
集成算法是竞赛与论文神器，当我们更关注于结果时不妨来试试！

参考：

https://study.163.com/course/introduction.htm?courseId=1003590004#/courseDetail?tab=1

相关文章

Python数据分析与机器学习24-集成算法与随机森林
一. 集成算法概述目的：让机器学习效果更好，单个不行，群殴走起分类: Bagging训练多个分类器取平均ima...
机器学习算法概述：随机森林&逻辑回归
摘要：机器学习算法入门介绍：随机森林与逻辑回归！随机森林是用于分类和回归的监督式集成学习模型。为了使整体性能更好...
《Scikit-Learn与TensorFlow机器学习实用指南
第7章集成学习与随机森林来源：ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻...
使用随机森林判定特征的重要性
随机森林算法是我们经常使用到的一种集成式的机器学习算法，由多棵决策树组合而成。那么怎么使用随机森林判定特征的重要性...
2021新书:《Python机器学习算法与实战》
本书基于Python语言，结合实际的数据集，介绍如何使用机器学习与深度学习算法，对数据进行实战分析。本书在内容上循...
机器学习笔记2_决策树
@[toc] 2.1简介决策树算法经典的机器学习算法，也是使用的很普遍的一类算法，集成学习中的随机森林就是以决策...
【算法周】啥都能干的“随机森林”，你值得拥有！
欢迎关注哈希大数据微信公众号【哈希大数据】 1 什么是随机森林？作为高度灵活的一种机器学习算法，随机森林（Ran...
Python学习笔记
一张图让你学会Python 机器学习算法的随机数据生成总结
机器学习与深度学习目录
机器学习：线性回归逻辑回归决策树贝叶斯分类随机森林集成算法支持向量机kmeans聚类k近邻算法深度学习感知器...
kaggle博客
数据挖掘完整流程机器学习基础与实践（一）----数据清洗 10 种机器学习算法的要点（附 Python 和 R 代...

网友评论

本文标题：Python数据分析与机器学习24-集成算法与随机森林

本文链接：https://www.haomeiwen.com/subject/dbtabrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Python数据分析与机器学习24-集成算法与随机森林|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！