美文网首页
矩阵论-lecture 6-LS

矩阵论-lecture 6-LS

作者: 吃核桃用手夹 | 来源:发表于2021-12-11 14:36 被阅读0次

    ENGG5781 矩阵分析和计算

    第 6 课:重新审视最小二乘法

    马永健
    2020–2021 第一学期
    电子工程系
    香港中文大学

    第 6 课:重新审视最小二乘法

    • 第一部分:正则化
    • 第二部分:稀疏性
      1)\ell_{0} 最小化
      2)贪婪的追求,\ell_{1} 最小化,和变化
      3)用于\ell_{2} - \ell_{1} 最小化的凸优化(majorization-minimization)
      4)字典学习
    • 第三部分:LS 在 A 中的错误
      – LS整体
      – 稳健的 LS,及其与正则化的等价

    第一部分:正则化

    对噪音的敏感性

    • 问题:当有噪声时,LS 解决方案的灵敏度如何?
    • 模型:
      \mathbf{y}=\mathbf{A} \overline{\mathbf{x}}+\boldsymbol{\nu},
      其中\overline{\mathbf{x}} 是真实结果;\mathbf { A} \in \mathbb{R}^{m \times n} 具有完整的列秩; \boldsymbol{\nu} 是噪声,建模作为具有均值零和协方差 γ 的随机向量 \gamma ^ {2} \mathbf {I}.
    • 均方误差 (MSE) 分析: 根据\mathbf{x}_{\mathrm{LS}}=\mathbf{A}^{\dagger} \mathbf{y}=\overline{\mathbf{x}}+\mathbf{A}^{\dagger} \boldsymbol{\nu} 我们可以得到
      \begin{aligned} \mathrm {E}\left[\left\|\mathbf {x}_{\mathrm {LS}}-\overline{ \mathrm {x}} \right\|_{2}^{2}\right] &=\mathrm{E}\left[\left\|\mathbf{A}^{\dagger} \boldsymbol{\nu}\right\|_{2}^{2}\right]=\mathrm{E}\left[\operatorname{tr}\left(\mathbf{A}^{\dagger} \boldsymbol{\nu} \boldsymbol{\nu}^{T}\left(\mathbf{A}^{\dagger}\right)^{T}\right)\right]=\operatorname{tr}\left(\mathbf{A}^{\dagger} \mathrm{E}\left[\boldsymbol{\nu} \boldsymbol{\nu}^{T}\right]\left(\mathbf{A}^{\dagger}\right)^{T}\right] \\ &=\gamma^{2} \operatorname{tr}\left(\mathbf{A}^{\dagger}\left(\mathbf{A}^{\dagger}\right)^{T}\right)=\gamma^{2} \operatorname{tr}\left(\left(\mathbf{A}^{T} \mathbf{A}\right)^{-1}\right) \\ &=\gamma^{2} \sum_{i=1}^{n} \frac{1}{\sigma_{i}^{2}(\mathbf{A})} \end{aligned}
    • 观察:如果某些 \sigma_{i}(\mathbf{A}) 接近于零,则 MSE 变得非常大。

    玩具演示:曲线拟合

    image.png

    与第 2 课中的曲线拟合示例相同。“真实”曲线是模型阶数 n = 4 的真实 f(x)。实际上,模型阶数可能未知,我们可能不得不猜测。 上面的拟合曲线由 LS 完成,猜测的模型阶数为 n = 16。

    \ell_{2}-正则化 LS

    • 直觉:替换 \mathbf {x}_{\mathrm{LS}}=\left(\mathbf{A}^{T} \mathbf {A}\right)^{-1} \mathbf{A}^{T} \mathbf{y} by
      \mathbf {x} _ {\mathrm {RLS}}=\left(\mathbf { A}^{T} \mathbf{A}+\lambda \mathbf{I}\right)^{-1} \mathbf {A}^{T} \mathbf{y}
      对于某些 \lambda>0, 添加项 \lambda \mathbf {I} 以改善系统调节,从而尝试降低噪声敏感性。
    • 我们如何理解这样的修改?
    • \ell_{2}-正则化 LS: 找到一个可以解决的 \mathrm{x}
      \min _ {\mathbf{x} \in \mathbb{R}^{n}}\|\mathbf{A} \mathbf{x}-\mathbf{y}\|_{2}^{2}+\lambda\|\mathbf{x}\|_{2}^{2}
      对于某些预先确定的 \lambda>0.
    • 解决方案是唯一给出的\mathbf {x}_{\mathrm {RLS}}=\left(\mathbf {A}^{T} \mathbf{A}+\lambda \mathbf{I}\right)^{-1} \mathbf{A}^{T} \mathbf{y}
    • 公式说我们试图最小化两者 \|\mathbf {y}-\mathbf {A x}\| _ {2}^{2}\|\mathbf{x}\|_{2}^{2}, 和 \lambda 控制在最小化中应该更强调哪一个
    image.png

    拟合曲线由\ell_{2}-正则化 LS 完成,猜测模型阶数为 n = 18,λ = 0.1。

    第二部分:稀疏性

    稀疏恢复问题

    问题:给定{\mathbf {y} \in \mathbb{R} ^{m}}{\mathbf {A} \in \mathbb {R} ^ {m*n}} ,m<n,找一个最稀疏的{\mathbf{x} \in \mathbb{R} ^{n}} ,使得y = Ax。

    image.png

    最稀疏,我们的意思是 x 应该有尽可能多的零元素。

    稀疏优化公式


    • \|\mathbf{x}\|_{0}=\sum_{i=1}^{n} \mathbb{1}\left\{x_{i} \neq 0\right\}
      表示基数函数
    • 通常称为" \ell_{0}规范", 尽管它不是规范。
    • 最小 \ell_{0} 范数公式:
      \begin{aligned} &\min _ {\mathbf {x} \in \mathbb{R}^{n}}\|\mathbf{x}\|_{0} \\ &\text { s.t. } \mathbf{y}=\mathbf{A} \mathbf{x} \end{aligned}
    • 问题:假设 \mathbf {y}=\mathbf {A} \overline{\mathbf{x}}, 其中 \overline{\mathbf{x}} 是我们寻求恢复的向量。 可以最小。 \ell_{0}规范 问题以精确和独特的方式恢复\overline{\mathrm{x}}
    • 答案在于火花的概念,它可以被视为对秩的强定义

    火花

    火花:\mathbf {A}的火花,用 \operatorname{spark}(\mathbf{A}) 表示,是 \mathbf {A}的最小线性相关列数。

    • \operatorname {spark}(\mathbf{A})=k. 则 k 是最小的数,使得存在线性相关的\left\{\mathbf{a}_{i_{1}}, \ldots, \mathbf{a}_{i_{k}}\right\} ,其中 \left\{i_{1}, \ldots, i_{k}\right\} \subseteq\{1, \ldots, n\}^{1}.

    • \operatorname{spark}(\mathbf{A})=r+1. 那么 \left\{\mathbf{a}_{i_{1}}, \ldots, \mathbf{a}_{i_{r}}\right\} 对于任何 \left\{i_{1}, \ldots, i_{r}\right\} \subseteq\{1, \ldots, n \}

    • 简单地说,\mathbf {A}r 列的任何集合都是线性无关的。

    • 与秩比较: 令 \operatorname{rank}(\mathbf{A})=r (与上面的 r 不同). 那么,对于某些\left\{\mathbf{a}_{i_{1}}, \ldots, \mathbf{a}_{i_{r}}\right\} ,存在线性无关的 \left\{i_{1}, \ldots, i_{r}\right\} \subseteq\{1, \ldots, n\} .

    • Kruskal 秩: 这是等级的另一种定义。T\mathbf {A},的克鲁斯卡尔秩,用\operatorname {krank}(\mathbf{A})表示,其定义等价于 \operatorname {krank}(\mathbf{A})=\operatorname{spark}(\mathbf{A})-1

    • 如果m 属于 \left\{\mathbf{a}_{1}, \ldots, \mathbf{a}_{n}\right\} \subseteq \mathbb{R}^{m}, with n>m,线性无关, 那么
      \operatorname {spark} (\mathbf{A})=m+1, \quad \operatorname{rank}(\mathbf{A})=m

    • 一个例子是具有不同根的范德蒙德矩阵

    • 一些专门设计的基地也有这个属性

    • 但也存在排名和火花非常不同的情况

    • \left \{\mathbf{v}_{1}, \ldots, \mathbf{v}_{r}\right\} \in \mathbb{R}^{m} 线性无关,令 \mathbf{A}=\left[\mathbf{v}_{1}, \ldots, \mathbf{v}_{r}, \mathbf{v}_{1}\right].

    • 我们有 \operatorname{rank}(\mathbf{A})=r,但是\operatorname{spark}(\mathbf{A})=2

    • 总而言之,spark 可以被视为对等级的更强定义,并且
      \operatorname{spark}(\mathbf{A})-1 \leq \operatorname{rank}(\mathbf{A})

    最小的完美恢复保证- \ell_{0}范数问题

    定理 6.1。 假设 \mathbf {y}=\mathbf{A} \overline{\mathbf{x}}。那么, \overline{\mathbf{x}} 是最小 \ell_{0}范数问题的唯一解,
    \|\overline{\mathbf{x}}\|_{0}<\frac{1}{2} \operatorname{spark}(\mathbf{A}) .

    • 含义:如果\overline{\mathrm{x}} 足够稀疏,那么最小 \ell_{0}范数问题完美地恢复了 \overline{\bar{x}}
    • 证明草图:
    1. \mathrm{x}^{\star} 成为 \min 的解。\ell_{0}范数问题。 令 \mathrm{e}=\overline{\mathrm{x}}-\mathrm{x}^{\star}.
    2. \mathbf {0}=\mathbf{A} \overline{\mathbf{x}}-\mathbf{A} \mathbf{x}^{\star}=\mathbf{A e} ;\|\mathbf{e}\|_{0} \leq\|\overline{\mathbf{x}}\|_{0}+\left\|\mathbf{x}^{\star}\right\|_{0} \leq 2\|\overline{\mathbf{x}}\|_{0}
    3. 假设\mathbf{e} \neq \mathbf{0}。然后, \mathbf {A e}=\mathbf{0},\|\mathbf{e}\|_{0} \leq 2\|\overline{\mathbf{x}}\|_{0} \Longrightarrow \operatorname{spark}(\mathbf{A}) \leq 2\|\overline{\mathbf{x}}\|_{0}

    最小的完美恢复保证。 \ell_{0}范数问题

    相干性:\mathbf{A} 的相干性定义为
    \mu(\mathbf{A})=\max _{j \neq k} \frac{\left|\mathbf{a}_{j}^{T} \mathbf{a}_{k}\right|}{\left\|\mathbf{a}_{j}\right\|_{2}\left\|\mathbf{a}_{k}\right\|_{2}}

    • 衡量\mathbf{A} 的列在最坏情况下的相似程度。
      定理 6.1 的弱版本:
      推论 6.1。 假设 \mathbf {y}=\mathbf{A} \overline{\mathbf{x}}。 那么,\overline{\mathbf{x}} 是最小 \ell_{0}范数问题的唯一解,如果
      \|\overline{\mathbf {x}}\|_{0}<\frac{1}{2}\left(1+\mu(\mathbf{A})^{-1}\right) .
    • 含义:完美的恢复可能取决于 \mathbf{A} 的不连贯程度。
    • 证明思路:证明 \operatorname {spark}(\mathbf{A}) \geq 1+\mu(\mathbf{A})^{-1}

    关于求解最小\ell_{0}范数问题

    问题:我们应该如何解决最小 \ell_{0}范数问题
    \begin{aligned} &\min _{x}\|x\|_{0} \\ &\text { s.t. } y=A x \end{aligned}
    还是可以有效解决?

    • \ell_{0} 范数最小化不会像 2 范数那样产生简单的解决方案。
    • 最小的 \ell_{0} 范数问题通常是 NP-hard。
    • 这意味着什么?
    • 给定任何 \mathbf {y},\mathbf {A},该问题不太可能在多项式时间内完全解决(即,复杂性为\mathcal{O}\left(n^{p}\right) 对于任何 p>0 )

    暴力搜索最小值 \ell_{0} 范数问题

    • 符号:\mathbf{A}_{\mathcal{I}} 表示 \mathbf{A} 的子矩阵,通过保留 \mathcal{I} 指示的列获得
    • 我们可以通过蛮力搜索解决 \ell_{0} 范数最小化问题:

    输入: \mathbf{A}, \mathbf{y}
    对于所有\mathcal{I} \subseteq\{1,2, \ldots, n\}
    \quad 如果 \mathbf{y}=\mathbf{A}_{\mathcal{I}} \tilde{\mathbf{x}} 有一些 \tilde {\mathbf{x}} \in \mathbb{R}^{|\mathcal{I}|}
    \quad \quad 记录(\tilde{\mathbf{x}}, \mathcal{I}) 作为候选解决方案之一
    输出: 一个候选解 (\tilde{\mathbf{x}}, \mathcal{I}) 其中|\mathcal{I}| 是最小的


    • 例如:对于 n=3,我们测试 \mathcal{I}=\{1\}, \mathcal{I}=\{2\}, \mathcal{I}=\{3\}, \mathcal{I}=\{1,2\}, \mathcal{I}= \{2,3\}, \mathcal{I}=\{1,3\}, \mathcal{I}=\{1,2,3\}
    • 可以用非常小的 n 来管理,即使是中等 n 也太贵了
    • 搜索较少的贪婪搜索怎么样?

    贪婪的追求

    • 考虑称为正交匹配追踪 (OMP) 的贪婪搜索

    算法: OMP
    输入: \mathbf{A}, \mathbf{y}
    set \mathcal{I}=\emptyset, \hat{\mathbf{x}}=\mathbf{0}
    repeat
    \quad \mathbf{r}=\mathbf{y}-\mathbf{A} \hat{\mathbf{x}}
    k=\arg \max _{j \in\{1, \ldots, n\}}\left|\mathbf{a}_{j}^{T} \mathbf{r}\right| /\left\|\mathbf{a}_{j}\right\|_{2}
    \mathcal{I}:=\mathcal{I} \cup \{k\}
    \hat{\mathbf{x}}: =\arg _{\mathbf{x} \in \mathbb{R}^{n},} \min _{x_{i}=0 \forall i \notin \mathcal{I}}\|\mathbf{y}-\mathbf{A x}\|_{2}^{2}
    直到满足停止规则,例如 \|\mathbf{y}-\mathbf{A x}\|_{2} 足够小
    输出: \hat{\mathbf{x}}


    • 注意:还有许多其他贪婪搜索策略

    贪婪追击的完美恢复保障

    • 再次,一个关键问题是 OMP 承认完全恢复的条件
    • 有很多这样的理论条件,不仅对于OMP,对于其他贪婪算法也有
    • 一个这样的结果如下:
      定理 6.2。 假设 y=A \bar{x}。 然后,OMP 恢复 \bar{x} 如果
      \| \overline {\mathbf {x} }\|_{0}< \frac {1}{2}\left( 1 + \mu(\mathbf {A})^{-1}\right)
    • 证明思路:证明 OMP 保证在每个阶段选择正确的列。

    凸面收缩

    另一种近似方法是将 \|\mathrm{x}\|_{0} 替换为凸函数:
    \begin{aligned} &\min _{\mathbf{x}}\|\mathbf{x}\|_{1} \\ &\text { s.t. } \mathbf{y}=\mathbf{A} \mathbf{x} \end{aligned}

    • 在文献中也称为基础追求
    • 凸,线性规划
    • 没有封闭形式的解决方案(而最小 2 范数问题有)
    • 但是这个最小 1 范数问题在理论和实践中的成功激发了大量的计算效率算法的工作

    1-范数几何图解

    image.png
    • 图 A 显示了 \mathbb{R}^{2} 中半径为 r 的 1-范数球。 请注意,1 范数球沿轴是“尖的”。
    • 图 B 显示了 1-范数恢复解决方案。 点 \overline{\mathbf{x}} 是一个“稀疏”向量; 行 \mathcal{ H} 是所有满足 \mathbf{y}=\mathbf{A} \mathbf{x}\mathbf{x} 的集合。

    1-范数几何图解

    image.png
    • 1-范数恢复问题是在 \mathcal{ H} 中挑出一个具有最小 1-范数的点。 我们可以看到 \overline{\mathbf{x}} 就是这样一个点。
    • 图 C 显示了使用 2 范数时的几何形状。 我们可以看到解 \hat{\mathbf{x}} 可能不是稀疏的。

    最小的完美恢复保证。 1-范数问题

    • 再次,研究人员研究了最小 1-范数问题允许完美恢复的条件
    • 这是一个令人兴奋的话题,具有许多可证明的条件,例如受限等距特性 (RIP)、零空间特性 (NSP)、...
    • 有关详细信息,请参阅文献,这里有一个:[Yin'13]
    • 一个简单的如下:
      定理 6.3。 假设 y=A \bar{x}。 那么,\bar{x} 是最小 1-范数问题的唯一解,如果
      \|\overline{\mathbf {x}}\|_{0}<\frac{1}{2}\left(1+\mu(\mathbf{A})^{-1}\right)

    玩具演示:稀疏信号重建

    • 稀疏向量 \mathbf {x} \in \mathbb{ R}^{n} 其中 n=2000\|\mathbf{x}\|_{0}=50
    • m=400 \mathbf{y}=\mathbf{A x} 的无噪声观测,a_{i j} 是随机生成的。
    image.png image.png

    应用:压缩传感 (CS)

    • 考虑一个信号 \tilde{\mathbf {x}} \in \mathbb{R}^{n} 具有稀疏表示 \mathbf {x} \in \mathbb { R}^{n} in \boldsymbol{\Psi} \in \mathbb{R}^{n \times n}(例如 DCT 或小波)的域,即,
      \tilde{\mathbf{x}}=\Psi \mathbf{x}
      其中 \mathbf{x} 是稀疏的。
    image.png

    左:原始图像 \tilde{\mathbf {x}}。 右:小波域中对应的系数\mathrm{x},是稀疏的。 资料来源:[Romberg-Wakin'07]

    应用:CS

    • 为了获得 \mathbf{x},我们使用感知矩阵 \boldsymbol{\Phi} \in \mathbb{R}^{m \times n} 来观察 \mathbf{x}
      y=\Phi \tilde{x}=\Phi \Psi x
      在这里,我们有 m \ll n,即比 no 少得多的观察值。 未知数
    • 这样的 y 将有利于压缩、传输和存储。
    • \tilde{\mathbf {x}} 通过恢复 \mathrm{x} 来恢复:
      \begin{aligned} &\min \|\mathrm{x}\|_{0} \\ &\text { s.t. } \mathrm{y}=\mathrm{Ax} \end{aligned}
      其中\mathbf{A}=\mathbf{\Phi} \boldsymbol{\Psi}
    • 如何选择 \Phi ? CS 研究表明 i.i.d. 随机 \Phi 会很好用!
    image.png

    变化

    • \mathbf{y} 被噪音污染时,或者当 \mathbf {y}=\mathbf{A x} 不完全成立时,前一分钟的一些变体。 可以考虑使用 1范数公式:
    • 基础追求去噪:给定 \epsilon>0,求解
      \min _{\mathbf{x}}\|\mathbf{x}\|_{1} \quad \text { s.t. }\|\mathbf{y}-\mathbf{A} \mathbf{x}\|_{2}^{2} \leq \epsilon
    • \ell_{1}-regularized LS:给定\lambda>0,求解
      \min _{\mathbf{x}}\|\mathbf{y}-\mathbf{A} \mathbf{x}\|_{2}^{2}+\lambda\|\mathbf{x}\|_{1}
    • 套索:给定 \tau>0,求解
      \min _{\mathbf{x}}\|\mathbf{y}-\mathbf{A} \mathbf{x}\|_{2}^{2} \quad \text { s.t. }\|\mathbf{x}\|_{1} \leq \tau
    • \mathbf{y} 中存在异常值时(即 \mathbf{y} 的某些元素严重损坏),我们还希望残差 \mathbf{r}=\mathbf{y}-\mathbf {A x} 是稀疏的; 所以,
      \min _{\mathbf{x}}\|\mathbf{y}-\mathbf{A} \mathbf{x}\|_{1}+\lambda\|\mathbf{x}\|_{1} .

    相关文章

      网友评论

          本文标题:矩阵论-lecture 6-LS

          本文链接:https://www.haomeiwen.com/subject/dzfqfrtx.html