1.监督学习和无监督学习:
监督学习(supervised learning):
输入数据有特征值和标签值,利用数据去训练一个模型,当新数据来时,可以输出一个预测的标签值。
根据输出值类型不同可以进行分为分类还是回归:
分类常见算法:逻辑回归,CART树,KNN和SVM。
回归常见算法:线性回归,决策树。
无监督学习(unsupervised learning):
输入数据没有标签值,需要模型自己去寻找数据之间的相似点,并归结为一簇。
常见的算法:K-means,DBSCAN。
2.泛化能力:
指一个模型对未知数据的预测能力。
3.过拟合和欠拟合:
过拟合指模型对训练集学习的太多,模型对训练集的预测误差很下,但是模型的泛化能力很差,对测试集的预测能力很差。
解决方法:添加更多的训练集,对于树模型,降低模型的深度,剪枝,对正则化的系数提高,增加对模型的惩罚系数。
欠拟合:模型对训练集预测不够,导致模型的预测误差很大。
解决方法:增加特征数,减少正则化的惩罚系数。提升树的深度。
4.交叉验证:
将数据分为三份,一份训练集,一份验证集,一份测试集。
训练集用于模型的 训练,验证集用于模型的选择,参数的调整。
测试集用于的模型的评估。
5.线性回归的原理:
线性回归模型是基于最小二乘法来进行模型建模的,最小二乘法就是试图寻找一条直线是所有的样本点到直线上的欧氏距离之和最小。
6.线性回归损失函数,代价函数,目标函数。
线性回归是基于均方误差来进行模型求解称为最小二乘法。
7.优化方法-最小二乘法,梯度下降法
通过让损失函数最小,而求解模型最佳参数。
一般有2种方法求解:
1.最小二乘法
:就是直接求损失函数的参数偏导数,令其为0.然后联合方程得到结果。
2.梯度下降法
梯度:对于多元函数来说,把求得的各个参数的偏导数以向量形式写出来,就是梯度。梯度表示函数变化最快的地方。我们只要不断沿着梯度方法,就能找到函数的最小值,前提是函数是凸函数,非凸有可能只能找到局部最小值。
梯度下降法是启发式,迭代进行,最小二乘是直接求解各个参数,梯度下降是逐步求解。
第一步:计算出函数的梯度。
第二步:初始化一个参数值和前进的步长。计算参数的梯度。
第三步:更新向量。
其中如果梯度跟新小于阈值,就停止下降,说明达到的极小值。
8.线性回归的评估指标
模型评估一般用均方误差MSE
或者RMSE:均方根误差,来计算模型的好坏
9.sklearn参数详解
网友评论