美文网首页
week59 不可解的矩阵方程 矩阵投影 重期望公式 动态规划

week59 不可解的矩阵方程 矩阵投影 重期望公式 动态规划

作者: 吃醋不吃辣的雷儿 | 来源:发表于2021-11-02 02:34 被阅读0次

日月交替铸一座钟 心随着世界一起跳动 南北进退得一场空 心声世界不愿懂
寒冬本来就冷 还要吵个不停 那多伤感情 坠入雪中泥泞的水坑
我面无表情 装作很冷静 去营造那不存在的暖风 脚下却只能踩着水坑
我知道我总会有不好的情绪 我知道我总会对你发脾气
我知道这一切都不怪你 我知道你们心里也委屈
妈妈还在忙 转身又进了厨房 怨这种日子怎么那么长 我躲在一旁等着饭菜香
太多的感受融进这万家灯火 笨嘴又拙舌不要责怪我 今夜的星光格外闪烁
我替你送晚秋去延安
我替你陪老板吃便饭
等我回天津摆佛龛
我和你一起爱左蓝
我也想从重庆走延安
我也想抱着雨农撞岱山
我也想重回海河天津站
我也想梦中念左蓝
你们编织在华北的浪漫
全刻在小卧室的天花板
你那峨眉峰埋葬在对岸
渤海深处写满了不甘

最近上课讲到了矩阵投影,感觉并不是很理解,没想到后来的许多都是建立在它的基础之上的,因此今天特地看了一下。

不可解的矩阵方程

如图,在R^2空间中有两个向量,求一个常数θ使两个向量满足θ·a=b


明显不可解,因为二者不共线。
同理,推到三维空间。

这个也明显不可解,因为二维空间的基向量只能表示平面上的向量,当向量b不在这个平面上时,方程无解。
那在这种情况下,既然没有完美的解,我们有没有可能找到一个比较好的解呢?
答案是可以的,最好的方法是抛弃矩阵b中和a垂直的分量,求一个θ使得θa等于b在a方向上的投影(projection),把b垂直在a方向上的分量成为e(error)。根据垂直关系,我们可以得到:

这个方程的核心就是写成向量内积形式的e和a的垂直关系。

而这只是二维的情况,当我们尝试把它拓展到更高维度:


参考自https://blog.csdn.net/qq_32742009/article/details/81453505,这篇写得很好

矩阵投影的意义

Aθ的所有可能结果都在一个固定的区域中,在线性代数中我们称这个区域为列空间(column space),列空间顾名思义就是矩阵各列的所有线性组合a1θ1+a2θ2+a3θ3+...+anθn。在1-D的情况下列空间就是一条线,在2-D的情况下列空间就是一个平面。但是我们的数据哪里会这么恰好的落在矩阵的列空间里呢?天底下哪有这样的好事啊!!!

特别是在数据量特别大的情况下,矩阵特别是在数据量特别大的情况下,矩阵A会成为一个n >> m的超级高大的n x m矩阵(如下图)。在这种等式数量远大于未知数数量的情况中,我们很难满足每一个等式的约束。



但是目标不再在空间里并不代表不能求出解,只能说没有perfect solution(语出Gilbert Strang),但是我们努力一下还是可以做到最好的(best solution)。我们用投影向量p来寻找最合适的θ。而这个θ就是不存在的完美解的估计值。
回顾矩阵求导得到的Normal Equation:



以及投影视角得到的公式:

两者除了在符号表示上有所区别,其它的一模一样,现在从符号本身的含义去联系两者。

归根结底,Normal Equation是用来求解一个最优化问题。在投影的方法中,矩阵A作为一个基向量空间,用于寻找最优的θ使之最接近b。
矩阵A有多少行就表示基向量空间有多少维(每个特征有多少样本量,就表明在这个空间中有多少维度),有多少列,就表示有多少个基向量。

在线性回归中矩阵A就等同于X,行数为样本量,列数为特征量,b等同于Y,为目标向量。
当特征远远少于样本量的时候说明基向量的空间维数很高,但基向量很少。也就是说在一个很大的空间中,只有少数几个方向给定,需要去拟合向量Y,那难度当然很大,误差就很大。
当特征数量远远大于样本量的时候就相反,基向量空间不大,但基向量的个数很多。也就是说在一个不大的空间中,有很多的基向量,基本涵盖了所有的方向,此时我想要找到一个基向量的线性组合去逼近目标向量Y,那就容易很多了。此时θ过于依赖当前的样本,泛化能力差。



重期望公式

双重期望値定理(Double expectation theorem),亦称重叠期望値定理(Iterated expectation theorem)、全期望値定理(Law of total expectation),即设X,Y,Z为随机变量,g(·)和h(·)为连续函数,下列期望和条件期望均存在,则


这个公式还挺重要的,很有用的一个公式,也是我很喜欢的一个公式。

动态规划DP

Dynamic Programming
动态规划是用来解决多阶段决策过程最优化的一种方法。其特点是可以把一个最优化问题转化为多个子最优化问题,从而一个一个地去解决。它是解决问题的一种思想或者说一种方法,并不是某一种特别的算法。


concept
optimal
DP

这是个特别有意思的事情:最优性原理比较好理解,它是说如果总策略是最优的话,那么子策略一定是最优的。而DP把这个事情反过来说了,说如果从某一步到最后一步的策略是最优的话,那么我们迭代这个过程直到第一步,那么这个总的策略一定是最优的。初闻之,不可思议。它的要求在隐含在了系统模型中,也就是下个时刻的系统状态与且仅与当前时刻的系统状态和当前时刻的控制输入有关,我们可以叫做无后效性或马尔可夫性。本质上是一个多阶段决策过程,在系统的不同时刻不同阶段根据所处的状态采取相应的输入,每个阶段都要做决策,为了使整个决策的过程达到最优效果。

相关文章

网友评论

      本文标题:week59 不可解的矩阵方程 矩阵投影 重期望公式 动态规划

      本文链接:https://www.haomeiwen.com/subject/mzzoaltx.html