机器学习基础理论
模型过拟合和模型欠拟合
过拟合Under Fitting(高方差high bias ) ---- 很好的拟合训练样本,对新数据的预测准确性很差
欠拟合 Over Fitting (高偏差 high variance ) ---- 不能很好的拟合训练样本,对新数据的预测准确性不好
举例
import numpy as np
n_dots = 20
x = np.linspace(0,1,n_dots)
y = np.sqrt(x) + 0.2*np.random.rand(n_dots) - 0.1
成本函数
成本是衡量模型与样本符合成度的指标。
成本函数 就是成本与模型参数的函数关系
模型训练的过程就是找出合适的模型参数,使得成本函数的值最小
模型准确性
测试数据集的成本是评估模型准确性的最直观的指标。
测试数据集的成本越小,模型预测出来的值与实际值差异越小,对新数据的预测准确幸就越好。 注意用来测试模型准确性的测试数据集,必须是模型没有“见过的”数据。
训练数据集和测试数据集一般按照8:2 或者7:3来划分
模型性能的不同表述方式
交叉验证数据集
学习曲线
画出学习曲线
过拟合和欠拟合的特征
算法模型性能优化
获取更多的训练数据
减少输入的特征数量
增加有价值的特征
增加多项式特征
查准率和召回率
F1 Score
我们的App:智安家
申明一下,只是学习笔记,只是学习笔记,只是学习笔记。
不要评论,不要评论,有问题可以18809445769@163.com。
喜欢文章不可以,喜欢小树姐很可以!
网友评论