残差
残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话, 我们可以将残差看作误差的观测值。
它应符合模型的假设条件,且具有误差的一些性质。利用残差所提供的信息,来考察模型假设的合理性及数据的可靠性称为残差分析。
有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。
偏差(bias )
偏差描述的是算法的预测的平均值和真实值的关系(可以想象成算法的拟合能力如何),而方差描述的是同一个算法在不同数据集上的预测值和所有数据集上的平均预测值之间的关系(可以想象成算法的稳定性如何)。
(ps:个人认为可以把偏差认为是单个模型的学习能力,而方差则描述的是同一个学习算法在不同数据集的不稳定性)
联合概率
单个变量的概率分布可以写成f(x),如果研究的是两个变量,则其分布f(x,y)就叫做联合概率密度,x和y可能相互影响,当且仅当x和y相互独立时,有f(x,y)=f(x)f(y)。如果函数f是离散的,就称f(x,y)是离散型联合概率密度;如果f是连续的,就称其为连续型联合概率密度。
网友评论