5秒导读:本文将叙述机器学习经典算法——线性回归,并讲述如何将其用于工资,房价,销量等预测
《我们一起玩AI》其实是一些列技术性脱团指南,今天的故事从A君说起,A君的女神开支不小,为了养活女神A君决定跳槽找一份更高工资的工作
已知A君身强体壮,健步如飞,6年工作经验,精通8门技能,能连续加班100小时不休息,开会5小时不喝水,带过66个项目,揍过15个产品经理,那么A君的工资应该是多少?
结果预测,自古以来就有2种办法,第一种,找个神棍算一卦,第二种,通过数据说话!现在,我们直接从第二种说起,首先我们可以通过数据挖掘收集相关行业的行情,为了简化讲解,我们先从单个维度(工作经验)说起。用X轴表示工作经验,Y轴表示工资,并将收集到的数据画在笛卡尔坐标中。
从图中不难看出随着工作年限的提高,工资也会增长,现在我们画一条直线(y=kx+b) 穿过这些点
假如这条直线距离所有点的距离足够近,那么这条直线在x处的y值就是A君工资的预测值!
当然,我们需要的指标不止一个,而是多个,这时候向量的点乘又双叒叕来了!
此时工资等于
(工资等于将向量中下标一样的数分别相乘,再全部加起来)
请务必习惯一下这些数学符号,久而久之你会发现,他们其实非常简洁实用,并且其实简洁实用与否并不重要!更关键的是——逼格才是一辈子的!
我们现在需要根据已知的数据,找到能够预测结果的向量θ,回忆一下,θ需要使得预测的工资最接近于真实工资(否则和神棍有什么区别?),也就是直线到所有真实点的距离平均距离最近,为了计算平均距离,根据欧几里得空间距离公式,我们不难写下:
(其中的x(i),y(i) 代表真实的数据)
其实也就是计算蓝线的平均长度
上述的J我们将其称作线性回归的“代价函数”,由于x(i),y(i)均为已知,所以J的自变量是θ,因变量是直线到点的平均距离。
OK,总结一下,要预测工资,我们需要一个向量θ,使θ与A君各项条件写成的向量X的点乘结果,最大程度符合收集到的真实数据,我们用所有真实工资减去θ点乘真实条件数据平方的平均数(也就是上图蓝线的平均长度)作为代价函数,这时候能让代价函数取到最小值的θ,就是我们众里寻他千百度的结果!有了它我们就能预测A君的工资。从此
至于这个最小值究竟如何得到,待下期讲述极限,导数,偏导数后,我们再慢慢谈论。
关注我们,获取更多有关 AI与大数据的信息。明日丽AI运营中心——科技助力企业发展,携手共创更美明天!
网友评论