Pirmin Lemberger, Ivan Panico, A Primer on Domain Adaptation
Theory and Applications, 2019.
概
机器学习分为训练和测试俩步骤, 且往往假设训练样本的分布和测试样本的分布是一致的, 但是这种情况在实际中并不一定成立. 作者就prior shift, covratie shift, concept shift, subspace mapping 四种情形给出相应的'解决方案".
主要内容
符号说明
: 数据
: 类别标签
: 训练样本
: 拟合函数/分类器
:预测
: 损失函数
: risk
: 经验风险函数
: 训练数据对应的分布
: 目标数据对应的分布
:近似的分布
Prior shift
但
. (如, 训练的时候,对每一类, 我们往往选择相同数目的样本以求保证类别的均衡).
假设根据训练样本和算法
,我们得到了一个近似后验分布
, 且近似的先验分布
, 并同样假设
, 有
倘若我们知道, 那么我们就直接可以利用(9)式来针对目标数据集了, 而这里的真正的难点在于, 如果不知道, 应该怎么办.
假设, 我们的目标数据集的样本数据为, 则我们的目标是求出
, 有
其中在最后一个等号部分, 我们假设了, 这个假设并非空穴来风, 我们可以从EM算法角度去理解.
于是, 很自然地, 我们可以利用交替迭代求解
注: 在实际中, 由于各种因素, 这么做反而画蛇添足, 起到反效果, 我们可以通过假设检验来判断是否接受.


其趋向于对于足够多地样本.
Covariate shift
, 但是
.
A covariate shift typically occurs when the cost or the difficulty of picking an observation with given features x strongly impacts the probability of selecting an observation (x, y) thus making it practically impossible to replicate the target feature distribution
in the training set.
在这里插入图片描述
我们所希望最小化,
在实际中, 若我们有或者其一个估计
, 我们最小化经验风险
注: 以下情况不适合用(16):
-
但是
;
-
二者差距很大, 使得
波动很大.
即最好是选取范围和
近似, 这些是根据下面的理论结果的到的:

(17)有的可信度.
显然, 解决(16)的关键在于, 有很多的概率密度估计方法(如核密度估计(KDE)), 但是在实际应用中, 这种估计可能会导致不可控的差的结果.
一个策略是直接估计, 而非分别估计
:
- 期望均方误差
(怎么玩?);
- KL散度
(怎么玩?);
- 最大平均差异(maximum mean discrepancy, MMD).
KMM
选择kernel , 相当于将
映入一个希尔伯特空间(RKHS),
, 其内积为
. 则MMD定义为:
则令 则
其中, , .
在实际中, 求解下面的优化问题
第一个条件为了保证之间差距不大, 第二个条件是为了保证概率的积分为1的性质.
Concept shift
,
. 其往往是在时序系统下, 即分布
与时间有关.
- 周期性地利用新数据重新训练模型;
- 保留部分旧数据, 结合新数据训练;
- 加入权重;
- 引入有效的迭代机制;
- 检测偏移, 并作出反应.
Subspace mapping
训练数据为, 而目标数据为
, 且
,且
是未知的.
我们现在的目标是找到一个有关
Wasserstein distance
以离散情形为例, 介绍,
其中表示狄拉克函数.
则, 自然地, 我们希望
其中是我们给定的一个损失函数, 这类问题被称为 Monge 问题.
但是呢, 这种方式找非常困难, 于是有了一种概率替代方案,
为以离散概率分布, 则
衡量了从分布变换到分布
的难易程度, 其中
注意这实际上是一个事实, 因为是其联合分布
的边缘分布.
而Wasserstein distance实际上就是
为一距离.
应用于 subspace mapping
策略一:
, 通过(34)可以找到一个
, 再利用
把训练数据
映射到
分布上, 再利用新的训练数据重新训练模型. (? 如何利用
变换呢?)
注:为了防止变换到同一个新数据, 需要添加一个惩罚项.
策略二:
, 但是
我们是不知道的, 所以用
代替, 且
于是
即
其中
在实际使用中, 视实际情况而定, 加入惩罚项
Prior shift 的EM解释
考虑联合概率, 其中
为隐变量,
为观测变量,EM算法步骤如下:
- E步:
(下面是离散情况)

- M步:

Prior shift中, , 隐变量
为
的one-hot-encodings. 则
其对数似然为

条件概率为

且易知


所以:
因为满足并不相互独立, 所以利用拉格朗日乘子法

取得极值的必要条件为

即

网友评论