R-拼图系列-基础函数 - 简书 (jianshu.com)
R-拼图系列-ggplot2之patchwork - 简书 (jianshu.com)
今天开始系统学习、整理机器学习(基于R)知识。根据之前的笔记经验,会在理解算法的基础上,强调笔记的实用性。于2021年10月28日
1、机器学习的大致内容
- 如下图所示大致分为两类:有监督学习与无监督学习
- 前者主要包括回归问题与分类问题;
- 后者主要包括降维(针对特征)与聚类(针对样本)
2、机器学习的大致流程
- “巧妇难为无米之炊” 数据是机器学习的基础,在开始应用机器学习之前,需要保证输入数据的质量,之后会有一节专门讨论数据的预处理(清洗);
-
虽然机器学习算法百花齐放,但也是大体遵循基本的流程(如下图所示):数据拆分为训练集、验证集、测试集--选择合适的机器学习模型--优化模型参数--测试集评价模型效果
- 没有免费的午餐:没有更高级的机器学习算法,只有哪些数据适合于哪个算法之说。没有一个算法可以适用于所有数据,我们需要做好选择
3、为什么R
- 参考教程:https://bradleyboehmke.github.io/HOML/index.html
- R has emerged over the last couple decades as a first-class tool for scientific computing tasks, and has been a consistent leader in implementing statistical methodologies for analyzing data. The usefulness of R for data science stems from the large, active, and growing ecosystem of third-party packages: tidyverse for common data analysis activities; h2o, ranger, xgboost, and others for fast and scalable machine learning; iml, pdp, vip, and others for machine learning interpretability; and many more tools will be mentioned throughout the pages that follow.
4、笔记目录
Part 1
机器学习示例数据集 - 简书 (jianshu.com)
数据集拆分:训练集、验证集、测试集 - 简书 (jianshu.com)
有监督学习算法模型评估指标 - 简书 (jianshu.com)
输入数据集预处理 - 简书 (jianshu.com)
网友评论