2020机器学习线性模型(F)

作者: zidea | 来源:发表于2020-01-21 06:42 被阅读0次
machine_learning.jpg

最大似然问题

在给定数据条件下,我们想要求找到最好的线性来拟合这些点。但是通常我们是无法找到一个可以完美拟合这些点的线性模型。因为这些点可能因为噪声会跟真实点有一定距离。这里有意思的事是我们可以认为这些距离是服从正态分布的。
f_{\theta}(x^{(1)},x^{(2)},\dots,x^{(n)}) = f(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta)

正态分布的期望值\mu 其标准值\sigma 标准差决定正态分布。

f(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}

其实更加形象理解就是用曲线覆盖数据越多越好,而且曲线形状是由 mu 和 sigma 所确定​。

对于这一组数据,可以取求参数\theta来拟合这些数据。当然也可以将 \theta 看做是给定条件。会认为这些数据是服从\theta = ( \mu \, \sigma)均值和方差的正态分布。

f(x^{(1)},x^{(2)},\dots,x^{(n)}|\mu,\sigma) = \prod_i^n \frac{1}{\sigma \sqrt{2 \pi}} exp(-\frac{1}{2} [\frac{x_i - \mu}{\sigma}]^2)

我们看到这些点概率也就是数据的联合概率。

f(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta) = f(x^{(1)}|\theta)f(x^{(2)}|\theta) \dots f(x^{(n)}|\theta)
这里我们可以假设 x^{(i)} 间是相互独立的,所以可以写成联乘的形式。每一个f(x^{(i)}|\theta) 都是一个概率密度函数。

f(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta) = \prod_{i=1}^n f(x^{(i)}|\theta)

现在极大似然函数就是给定什么样\theta 我们让他们乘积最大,因为是小数所以乘积会越来越小。所以可以通过 log 将乘积转换为连加形式。
\ln L(x^{(1)},x^{(2)},\dots,x^{(n)}|\theta) = \sum_{i=1}^n \ln f(x^{(i)}|\theta)

这些数据连乘的形式而且每一个f 都是一个正态分布,所以我们极大似然函数就是在给定什么样\theta 我想求上面函数最大。

lr2.png

我们在整条直线上分布同样参数正态分布位于每一个数据点上,在每一个样本点与线性模型的距离作为输入,这里我们认为均值为 0 ,

(y^{(i)} - \theta^Tx^{(i)} - 0)

p(y^{(i)}|x^{(i)}\theta) = \frac{1}{\sigma \sqrt{2 \pi}} exp(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2})

其实我们求极大似然值也就是求方程的最小二乘法。

接下来介绍是 logistic 回归,现在还是有很多人叫逻辑回归,这个叫法是有点问题,我之前也这么叫这个模型。周老师在他的西瓜书叫对数几率回归。我们之前一直在找一个线性模型来做回归,其实这里回归是拟合意思,也就是找到一个合适模型来拟合现有数据。

这里我们就叫数几率回归,数几率回归与其他回归问题不同,他不是用来做拟合而是做分类。线性模型通过 sigmoid 函数变换后值域变为 0 到 1 。我们根据函数值取值是大于 0.5 还是小于 0.5 来判别类别。

Sigmoid

\Phi(z) = \frac{1}{1 + e^{-z}}

th.jpeg
sigmoid 是指数函数,这个函数会把我们线性函数值域压缩到 0 到 1 之间。


也就是将 z 用我们之前线性模型来代替。可以这样解释就是将我们之前的线性关系映射到 0 和 1 之间。

我们之前学习线性模型可以这样理解一下,也就是我们拿到数据,数据有很多特征,但是这些特征对于样本哪个更重要,我们通过权重(参数)来表示。这也就是线性模型有趣的地方。那么在数几率回归中我们是用 sigmoid 函数将线性方法拟合一个 0 到 1 之间数来表示样本属于哪个一个类别的概率。

\log \frac{p(y=1|x)}{p(y=0|x)} = -\theta^Tx

这里p(y=1|x)/p(y=0|x) 是一个几率问题,这个值如果问题 1 表示 x 属于 y=1 和 y=0 的类别是等价的,然后取 log 就是我们线性组合。我们可以反推导一下就可以得到上面公式。

相关文章

  • 2020机器学习线性模型(F)

    最大似然问题 在给定数据条件下,我们想要求找到最好的线性来拟合这些点。但是通常我们是无法找到一个可以完美拟合这些点...

  • Task4模型调参

    学习目标 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程 内容介绍 线性回归模型:线性回归对于特征的要...

  • 2019-10-29

    Day2 简单线性回归模型 机器学习入门--简单线性回归机器学习算法之线性回归算法 导入库matplotlib 绘...

  • Python机器学习之线性模型

    一、线性模型基本概念  线性模型不是指某一个模型,而是一类模型。在机器学习领域,常用的线性模型包括,线性回归、岭回...

  • 2-线性模型

    算法简介 线性模型是在机器学习实战中广泛使用的一类模型。线性模型利用输入特征的线性函数(linear functi...

  • 2020机器学习线性模型(3)

    在实际中我们是无法找到一条完美线性模型取拟合所以的样本点,我们总是近视找到一条线性模型来拟合所有点。现在我们哪一个...

  • 2020机器学习线性模型(1)

    线性模型 今天我们来讨论一下线性模型,之前已经了解到线性模型来做回归问题,所谓回归问题就是根据给定样本数据训练出一...

  • 2020机器学习线性模型(5)

    我们依旧回归一下上一次内容,上一次我们介绍一下对数几率模型,其实本质是线性模型,但是他是一个泛化的线性模型,他是一...

  • 2020机器学习线性模型(2)

    现在我们可无需梯度下降通过矩形求导直接计算出完全通过学过线性代数知识来直接求取 那么什么时候我们选择最小二乘法什么...

  • 2020机器学习线性模型(7)

    今天是大年初一,先给大家在此拜个年,祝大家新年里身体健康,万事如意!我们今天谈谈什么是回归问题,这里回归问题和分类...

网友评论

    本文标题:2020机器学习线性模型(F)

    本文链接:https://www.haomeiwen.com/subject/fogszctx.html