Pirmin Lemberger, Ivan Panico, A Primer on Domain Adaptation
Theory and Applications, 2019.
概
机器学习分为训练和测试俩步骤, 且往往假设训练样本的分布和测试样本的分布是一致的, 但是这种情况在实际中并不一定成立. 作者就prior shift, covratie shift, concept shift, subspace mapping 四种情形给出相应的'解决方案".
主要内容
符号说明
: 数据
: 类别标签
: 训练样本
: 拟合函数/分类器
:预测
: 损失函数
: risk
: 经验风险函数
: 训练数据对应的分布
: 目标数据对应的分布
:近似的分布
Prior shift
但. (如, 训练的时候,对每一类, 我们往往选择相同数目的样本以求保证类别的均衡).
在这里插入图片描述假设根据训练样本和算法,我们得到了一个近似后验分布, 且近似的先验分布, 并同样假设, 有
倘若我们知道, 那么我们就直接可以利用(9)式来针对目标数据集了, 而这里的真正的难点在于, 如果不知道, 应该怎么办.
假设, 我们的目标数据集的样本数据为, 则我们的目标是求出, 有
其中在最后一个等号部分, 我们假设了, 这个假设并非空穴来风, 我们可以从EM算法角度去理解.
于是, 很自然地, 我们可以利用交替迭代求解
注: 在实际中, 由于各种因素, 这么做反而画蛇添足, 起到反效果, 我们可以通过假设检验来判断是否接受.
在这里插入图片描述 在这里插入图片描述
其趋向于对于足够多地样本.
Covariate shift
, 但是.
A covariate shift typically occurs when the cost or the difficulty of picking an observation with given features x strongly impacts the probability of selecting an observation (x, y) thus making it practically impossible to replicate the target feature distribution in the training set.
在这里插入图片描述
我们所希望最小化,
在实际中, 若我们有或者其一个估计, 我们最小化经验风险
注: 以下情况不适合用(16):
- 但是;
- 二者差距很大, 使得波动很大.
即最好是选取范围和近似, 这些是根据下面的理论结果的到的:
(17)有的可信度.
显然, 解决(16)的关键在于, 有很多的概率密度估计方法(如核密度估计(KDE)), 但是在实际应用中, 这种估计可能会导致不可控的差的结果.
一个策略是直接估计, 而非分别估计:
- 期望均方误差(怎么玩?);
- KL散度(怎么玩?);
- 最大平均差异(maximum mean discrepancy, MMD).
KMM
选择kernel , 相当于将映入一个希尔伯特空间(RKHS), , 其内积为. 则MMD定义为:
则令 则
其中, , .
在实际中, 求解下面的优化问题
第一个条件为了保证之间差距不大, 第二个条件是为了保证概率的积分为1的性质.
Concept shift
,. 其往往是在时序系统下, 即分布与时间有关.
- 周期性地利用新数据重新训练模型;
- 保留部分旧数据, 结合新数据训练;
- 加入权重;
- 引入有效的迭代机制;
- 检测偏移, 并作出反应.
Subspace mapping
训练数据为, 而目标数据为, 且,且是未知的.
我们现在的目标是找到一个有关
Wasserstein distance
以离散情形为例, 介绍,
其中表示狄拉克函数.
则, 自然地, 我们希望
其中是我们给定的一个损失函数, 这类问题被称为 Monge 问题.
但是呢, 这种方式找非常困难, 于是有了一种概率替代方案,
为以离散概率分布, 则
衡量了从分布变换到分布的难易程度, 其中
注意这实际上是一个事实, 因为是其联合分布的边缘分布.
而Wasserstein distance实际上就是
为一距离.
应用于 subspace mapping
策略一:
, 通过(34)可以找到一个, 再利用把训练数据映射到分布上, 再利用新的训练数据重新训练模型. (? 如何利用变换呢?)
注:为了防止变换到同一个新数据, 需要添加一个惩罚项.
策略二:
, 但是我们是不知道的, 所以用代替, 且
于是
即
其中
在实际使用中, 视实际情况而定, 加入惩罚项
Prior shift 的EM解释
考虑联合概率, 其中为隐变量, 为观测变量,EM算法步骤如下:
- E步: (下面是离散情况)
- M步:
Prior shift中, , 隐变量为的one-hot-encodings. 则
在这里插入图片描述其对数似然为
在这里插入图片描述
条件概率为
在这里插入图片描述
且易知
在这里插入图片描述
在这里插入图片描述
所以:
在这里插入图片描述
因为满足并不相互独立, 所以利用拉格朗日乘子法
在这里插入图片描述
取得极值的必要条件为
在这里插入图片描述
即
在这里插入图片描述
网友评论