ML训练营笔记3

作者: 皮皮大 | 来源:发表于2019-11-28 19:29 被阅读0次

    线性回归

    1. 属于有监督学习模型

    2. 输出的结果​y_i是连续变量值

    3. 需要学习映射​f:X \rightarrow Y

    4. 假设输入和输出之间存在线性关系

    5. 在预测阶段,给定输入预测其输出:

    f:X \rightarrow Y

    多变量情形

    \begin{align} h_{\theta}(x) & =\theta_0+\theta_1x_1+\theta_2x_2 \\ & = \sum^T_{i=0} \theta_ix_i \\ & = \theta^Tx \end{align}

    损失函数

    线性回归中的损失函数使用的是平方损失函数,其表达式

    J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum^m_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^2

    目标:使得损失最小化

    梯度下降算法

    • 逐步最小化损失函数的过程

    • 如同下山,找准方向(斜率),每次迈进一小步,直至山底

    原始形式:

    \theta_j:=\theta_j-\alpha \frac {\partial J(\theta_0,\theta_1,...,\theta_n)}{\partial \theta_j}

    将代价函数J​带进去:

    \theta_j:=\theta_j-\frac{1}{2m} \alpha \frac {\partial \sum^m_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^2}{\partial \theta_j}

    求导数之后:

    \theta_j:=\theta_j-\frac{1}{m} \alpha \sum^m_{i=1}((h_{\theta}(x^{(i)})-y^{(i)})\cdot x_j^{(i)}

    当​n \geq 1时:

    \theta_0:=\theta_0-\frac{1}{m} \alpha \sum^m_{i=1}((h_{\theta}(x^{(i)})-y^{(i)})\cdot x_0^{(i)}

    \theta_1:=\theta_1-\frac{1}{m} \alpha \sum^m_{i=1}((h_{\theta}(x^{(i)})-y^{(i)})\cdot x_1^{(i)}

    \theta_2:=\theta_2-\frac{1}{m} \alpha \sum^m_{i=1}((h_{\theta}(x^{(i)})-y^{(i)})\cdot x_2^{(i)}

    过拟合问题

    模型特征多,模型比较复杂,对原始数据拟合的很好,但是对新的数据预测效果差。

    MzINad.png

    正则化

    正则化技术主要是为了解决过拟合的问题。过拟合指的是:对现有的样本数据具有很好的判断能力,但是对新的数据预测能力很差。

    对于过拟合的处理:

    1. 丢弃一些不能正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法,例如PCA

    2. 正则化。 保留所有的特征,但是减少参数的大小(magnitude

    3. 加入正则化参数后能够防止过拟合问题,其中​是正则化参数Regularization Parameter

    J(\theta)=\frac{1}{2m}\sum^m_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda \sum^n_{j=1}\theta^2_{j}

    Attention:一般地,不对​进行惩罚;加上正则化参数实际上是对参数​进行惩罚。

    • 太小:约束不了
    • ​太大:平方损失函数有后面的正则项决定,这不是我们希望看到的

    逻辑斯蒂回归

    对离散值进行分类,激活函数是​sigmoid(x)=\frac{1}{1+e^{-x}},也称之为压缩函数

    h_\theta(x)=g(z)= \frac{1}{1+e^{-\theta^TX}}

    损失函数

    Cost(h_\theta(x), y) = \begin{cases} -\log(h_\theta(x)), & \text{y=1} \\ -\log(1-h_\theta(x)), & \text{y=0} \\ \end{cases}

    加入正则项:

    J(\theta)=\frac{1}{m}\sum^m_{i=1}[-y^{(i)}\log(h_\theta(x^{(i)}))-(1-y^{(i)})\log(1-h_\theta(x^{i}))]+\frac{\lambda}{2m}\sum^n_{j=1}\theta^2_j

    LR特点

    • LR是以概率的形式输出,而不是0-1判定
    • 可解释性强,可控度高
    • 训练快,做排序模型

    LR主要应用

    1. CTR预估/推荐系统中的learning to rank/各种分类场景
    2. 电商搜索排序/广告CTR预估基线版是LR
    3. 电商的购物搭配推荐使用了大量的LR
    4. 新闻APP排序基线是LR

    相关文章

      网友评论

        本文标题:ML训练营笔记3

        本文链接:https://www.haomeiwen.com/subject/lyciwctx.html