线性回归
- 机器学习的有监督算法分为分类和回归两种。
- 回归:通过输入的数据,预测出一个值,如银行贷款,预测银行给你贷多少钱。
- 分类:通过输入的数据,得到类别。如,根据输入的数据,银行判断是否给你贷款。
- 举个例子
工资 | 年龄 | 额度 |
---|---|---|
4000 | 25 | 20000 |
8000 | 30 | 70000 |
5000 | 28 | 35000 |
7500 | 33 | 50000 |
12000 | 40 | 85000 |
- 数据:工资和年龄(2个特征)
- 目标:预测银行会贷多少钱(标签)
-
考虑:工资和年龄都会影响最终的贷款的额度,那么他们各自有多大的影响呢?(参数/权重)
image.png - 通俗的解释,x1,x2就是我们的两个特征(年龄和工资),Y是银行最终会借给我们多少钱,找到最合适的一条线(或一个面)来最好的拟合我们的数据点。
- 数学上表示:
-
假设1是年龄的参数,2是工资的参数。拟合的平面为:
image.png -
整合:当有n个特征的时候,默认x0=1。
image.png -
误差
- 真实值和预测值之间肯定是存在差异的(用表示)
- 对于每个样本: image.png
- 误差是独立并且具有相同的分布,且服从均值为0,方差为的高斯分布。
- 独立:张三和李四来贷款,他们之间没有关系,分别进行评估,不会因为给张三的少了,就给李四的多。
- 同分布:他俩来的是同一个银行。
- 高斯分布:银行可能多给,也可能少给,但是绝大多数情况下,这个浮动不会太大,极小的情况下浮动会比较大,符合正常情况。
- 预测值与误差: image.png
- 误差服从高斯分布: image.png
- 整合之后: image.png
- 似然函数: image.png
-
对数似然:
image.png
- 乘法难解,加法比较容易,对数里面乘法可以转换为加法。
- 展开化简: image.png
- 目标:让似然函数越大越好 image.png
- 目标函数: image.png
-
求偏导:
image.png
- 矩阵求偏导公式:A'代表A的转置
- Y = A * X --> DY/DX = A'
- Y = X' * A --> DY/DX = A
- Y = X' * A * X --> DY/DX = 2AX
- Y = A' * X * B --> DY/DX = A * B'
- Y = A' * X' * B --> DY/DX = B * A'
- 矩阵求偏导公式:A'代表A的转置
- 偏导等于0: image.png
-
网友评论