这门课的要点:
- 逻辑回归
- 随机优化
- 最小化损失的监督学习
- 随机梯度下降
- 近年来高阶机器学习话题
- 归纳偏置(inductive bias)的架构
- CV 和 NLP的进展
- 下游应用
- 挑战
- 分布迁移(distributional shifts)
- 对抗样本
- 公平(fairness)、可解释性(accountability)、透明(transparency)、道德(ethics)
- 虚假相关(spurious correlation)
二分类问题
损失函数
-
hinge loss:
比如SVM就是
-
logistic loss:
比如logistic regression就是
-
多分类问题的话结果就变成了MNL那样的形式,如全连接的neural networks的最终损失函数就是。
关于ERM/SAA
我们不知道真实的P啊。ERM通常怎么解?如果l是凸的,那么这样解出来的线性模型参数就是对的。如果用二阶优化方法,如内点法,计算hessian矩阵再往回推,计算量非常大。如果用一阶方法,估计梯度仍然需要O(n)的计算复杂度。所以大规模数据可以尝试SGD。
挑战
- 长尾
现代应用中长尾的现象到处都是(ubiquitous)。比如每天在谷歌上搜索的量就是一个长尾。 - 天然的难以分类的样本。比如120类狗狗,每一类的数量即便都是一样多的,仍然有些血统的狗狗分类表现超好,有些就不尽如人意,差别非常大。
- 细分人群与总体的表现差异很大。比如CATE在不同子群体之间的符号、大小。男性是正的,男性黑人可能就是负的。所以换一个人群分布,决策效果就没那么好了。不鲁棒。
- 虚假相关。把背景当做前景信息进行分类。
这门课剩下的内容:
- 用一个月的时间讲基础的统计学习结论,以及相关证明
- 近年来的重要研究,关于识别、建模、应对上述挑战的提升工作。
- 目标是培养一个关于可靠性话题的批判性视角 。场景可以是医疗、制造业、供应链、金融、营销等。
网友评论