我们一起玩AI 3——线性回归与工资预测

作者: ASRay明日丽科技 | 来源:发表于2019-11-03 23:23 被阅读0次

我们一起玩AI 3——线性回归与工资预测
我们一起玩ai 4——极限与导数
机器学习实战Py3.x填坑记8—预测数值型数据：回归
不是回归的逻辑回归算法
第一次打卡 Task01
2018-07-04
初级算法梳理(二)任务2打卡
分类与预测
回归专题-1 | 线线性回归基础
机器学习之线性回归

5秒导读：本文将叙述机器学习经典算法——线性回归，并讲述如何将其用于工资，房价，销量等预测

《我们一起玩AI》其实是一些列技术性脱团指南，今天的故事从A君说起，A君的女神开支不小，为了养活女神A君决定跳槽找一份更高工资的工作

已知A君身强体壮，健步如飞，6年工作经验，精通8门技能，能连续加班100小时不休息，开会5小时不喝水，带过66个项目，揍过15个产品经理，那么A君的工资应该是多少？

结果预测，自古以来就有2种办法，第一种，找个神棍算一卦，第二种，通过数据说话！现在，我们直接从第二种说起，首先我们可以通过数据挖掘收集相关行业的行情，为了简化讲解，我们先从单个维度（工作经验）说起。用X轴表示工作经验，Y轴表示工资，并将收集到的数据画在笛卡尔坐标中。

从图中不难看出随着工作年限的提高，工资也会增长，现在我们画一条直线(y=kx+b) 穿过这些点

假如这条直线距离所有点的距离足够近，那么这条直线在x处的y值就是A君工资的预测值！

当然，我们需要的指标不止一个，而是多个，这时候向量的点乘又双叒叕来了！

此时工资等于

（工资等于将向量中下标一样的数分别相乘，再全部加起来）

请务必习惯一下这些数学符号，久而久之你会发现，他们其实非常简洁实用，并且其实简洁实用与否并不重要！更关键的是——逼格才是一辈子的！

我们现在需要根据已知的数据，找到能够预测结果的向量θ，回忆一下，θ需要使得预测的工资最接近于真实工资（否则和神棍有什么区别？），也就是直线到所有真实点的距离平均距离最近，为了计算平均距离，根据欧几里得空间距离公式，我们不难写下：

（其中的x(i),y(i) 代表真实的数据）

其实也就是计算蓝线的平均长度

上述的J我们将其称作线性回归的“代价函数”，由于x(i),y(i)均为已知，所以J的自变量是θ，因变量是直线到点的平均距离。

OK，总结一下，要预测工资，我们需要一个向量θ，使θ与A君各项条件写成的向量X的点乘结果，最大程度符合收集到的真实数据，我们用所有真实工资减去θ点乘真实条件数据平方的平均数（也就是上图蓝线的平均长度）作为代价函数，这时候能让代价函数取到最小值的θ，就是我们众里寻他千百度的结果！有了它我们就能预测A君的工资。从此