离散变量预测,称之为分类;连续变量预测,称之为回归。
本文总结,通过极大似然估计得到:
- 1)线性回归的代价函数为均方误差。
- 2)逻辑回归的代价函数为(经过映射后的)二元交叉熵。
一、线性回归
中心极限定理
中心极限定理是指,给定足够大的样本量,无论变量在总体中的分布如何,变量均值的抽样分布都将近似于正态分布。详细来讲,给定一个任意分布的总体,从这个总体中抽取n个样本,总共随机抽取m次(n、m越大越好),计算这m次的样本的平均值,则这些平均值的分布是正态分布,并且这些平均值的均值近似等于总体均值,平均值的方差为总体方差除以n。
误差
误差指的是实际值与预测值之间的差值:
我们期望预测结果尽量接近实际值,即希望误差最小,因此需要对误差进行分析,以进行数学建模。
我们假设误差是独立同分布,且服从的高斯分布,则其概率密度函数为:
似然函数
对于已经观察到的样本的结果,它的似然函数为:
它表示在已知条件下,发生的概率值,显然越大越好。
两边取对数,并展开化简得:
约去定值,并乘-1,将求最大值转换为求最小值:
代价函数称为L2损失或MSE(均方误差)。
二、逻辑斯蒂回归(解决分类问题)
伯努利分布
如果随机变量X只取0和1两个值,且相应的概率为:
则称随机变量X服从参数为的伯努利分布。
基于线性回归的思考
如何用线性回归来解决二分类问题?
1.通过函数将值域映射到(0, 1)之间,表示其为正样本的概率值。
2.若继续模仿线性回归,利用MSE作为代价函数,则此时代价函数是一个非凸函数,会有许多局部极小值,不利于求解,我们应该换一种思路。
似然函数
在二分类问题中,y取值0,1服从伯努利分布,则有:
时的概率为:
时的概率为:
合并得,
对于已经观察到的样本的结果,它的似然函数为:
它表示在已知条件下,发生的概率值,显然越大越好。
两边取对数,并展开化简得:
乘以-1,将求最大值转换为求最小值:
代价函数称为二元交叉熵损失(BCE)。
网友评论