美文网首页
Columbia 可靠统计推断 第一课·概览

Columbia 可靠统计推断 第一课·概览

作者: 顾劝劝 | 来源:发表于2020-12-27 21:43 被阅读0次

    这门课的要点:

    • 逻辑回归
    • 随机优化
      • 最小化损失的监督学习
      • 随机梯度下降
    • 近年来高阶机器学习话题
      • 归纳偏置(inductive bias)的架构
      • CV 和 NLP的进展
      • 下游应用
    • 挑战
      • 分布迁移(distributional shifts)
      • 对抗样本
      • 公平(fairness)、可解释性(accountability)、透明(transparency)、道德(ethics)
      • 虚假相关(spurious correlation)

    二分类问题

    损失函数

    • hinge loss: l(\theta; X,Y) = (1-Yh_\theta(X))_+
      比如SVM就是
      \min_{\theta:||\theta||_2\leq r}\mathbb{E}(1-Y\theta^TX)_+

    • logistic loss: l(\theta; X,Y) =\log(1+\exp(-Yh_\theta(X))
      比如logistic regression就是
      \min_{\theta:||\theta||_p\leq r}\log(1+\exp(-Yh_\theta(X))

    • 多分类问题的话结果就变成了MNL那样的形式,如全连接的neural networks的最终损失函数就是l(\theta;X,Y)=-\log \dfrac{\exp(h_\theta,y(X)}{\sum_{k=1}^K\exp(h_\theta,k(X)}

    关于ERM/SAA

    我们不知道真实的P啊。ERM通常怎么解?如果l是凸的,那么这样解出来的线性模型参数就是对的。如果用二阶优化方法,如内点法,计算hessian矩阵再往回推,计算量非常大。如果用一阶方法,估计梯度仍然需要O(n)的计算复杂度。所以大规模数据可以尝试SGD。

    挑战

    • 长尾
      现代应用中长尾的现象到处都是(ubiquitous)。比如每天在谷歌上搜索的量就是一个长尾。
    • 天然的难以分类的样本。比如120类狗狗,每一类的数量即便都是一样多的,仍然有些血统的狗狗分类表现超好,有些就不尽如人意,差别非常大。
    • 细分人群与总体的表现差异很大。比如CATE在不同子群体之间的符号、大小。男性是正的,男性黑人可能就是负的。所以换一个人群分布,决策效果就没那么好了。不鲁棒。
    • 虚假相关。把背景当做前景信息进行分类。

    这门课剩下的内容:

    • 用一个月的时间讲基础的统计学习结论,以及相关证明
    • 近年来的重要研究,关于识别、建模、应对上述挑战的提升工作。
    • 目标是培养一个关于可靠性话题的批判性视角 。场景可以是医疗、制造业、供应链、金融、营销等。

    相关文章

      网友评论

          本文标题:Columbia 可靠统计推断 第一课·概览

          本文链接:https://www.haomeiwen.com/subject/spranktx.html