- R语言机器学习算法实战系列(一)XGBoost算法+SHAP值(eXtreme Gradient Boosting)
- R语言机器学习算法实战系列(二) SVM算法+重要性得分(Support Vector Machine)
- R语言机器学习算法实战系列(三)lightGBM算法+SHAP值(Light Gradient Boosting Machine)
- R语言机器学习算法实战系列(四)随机森林算法+SHAP值 (Random Forest)
- R语言机器学习算法实战系列(五)GBM算法+SHAP值 (Gradient Boosting Machines)
- R语言机器学习算法实战系列(六)K-邻近算法 (K-Nearest Neighbors)
- R语言机器学习算法实战系列(七)朴素贝叶斯分类算法 (Naïve Bayes Classifier)
- R语言机器学习算法实战系列(八)逻辑回归算法 (logistic regression)
- R语言机器学习算法实战系列(九)决策树分类算法 (Decision Trees Classifier)
- R语言机器学习算法实战系列(十)自适应提升分类算法 (Adaptive Boosting)
- R语言机器学习算法实战系列(十一)MLP分类算法 (Multi-Layer Perceptrons)
- R语言机器学习算法实战系列(十二)线性判别分析分类算法 (Linear Discriminant Analysis)
介绍
逻辑回归分类算法的原理是基于概率的,它通过估计一个给定输入样本属于某个类别的概率来进行分类。下面是逻辑回归算法的原理和步骤:
image.png原理:
- 线性假设:逻辑回归假设特征和输出之间存在线性关系。对于二分类问题,我们想要预测的是一个概率值,即样本属于某个类别的概率。
- Sigmoid函数:为了将线性回归的输出转换为概率值(一个介于0和1之间的值),逻辑回归使用Sigmoid函数。
- 对数几率(Log-odds):Sigmoid函数的输入是对数几率,即特征的线性组合。对数几率表示的是特征和类别标签之间的线性关系。
- 最大似然估计:逻辑回归模型的参数通常通过最大似然估计(MLE)来确定。这意味着找到一组参数值,使得观察到的数据出现的概率最大。
步骤:
- 数据准备:收集数据并进行预处理,如特征缩放、处理缺失值等。
- 模型初始化:初始化模型参数,通常使用随机值或零。
- 计算对数几率:对于每个样本,计算其特征的线性组合
- 应用Sigmoid函数:将对数几率通过Sigmoid函数转换为概率值
- 预测:根据概率值和设定的阈值(通常为0.5)来确定样本的类别。如果概率值大于阈值,则预测为类别1,否则为类别0。
- 损失函数:定义损失函数,逻辑回归通常使用交叉熵损失(Cross-Entropy Loss)。
- 参数更新:使用梯度下降或其它优化算法来更新模型参数,以最小化损失函数。
教程
本文旨在通过R语言实现LR,总共包含:
- 下载数据
- 加载R包
- 数据预处理
- 数据描述
- 数据切割
- 构建模型
- 预测测试数据
- 评估模型
- 特征的重要性
- 保存模型
- 总结
- 系统信息
网友评论