摘自 https://zhuanlan.zhihu.com/p/21441807 深度学习大讲堂
领域自适应问题中两个至关重要的概念:源域(source domain)表示与测试样本不同的领域,但是有丰富的监督信息,目标域(target domain)表示测试样本所在的领域,无标签或者只有少量标签。源域和目标域往往属于同一类任务,但是分布不同。
根据目标域和源域的不同类型,领域自适应问题有四类不同的场景:无监督的,有监督的,异构分布和多个源域问题。
机器学习的经典流程可以看作:收集训练集的数据,提取特征,在训练集上依据经验误差最小准则学习分类器。如果训练集和测试集分布一致,则模型效果好。如果分布不一致,在源域过拟合,在目标域上效果不好。
通过在上述流程的不同阶段进行领域自适应,研究者提出了三种不同的领域自适应方法:1)样本自适应,对源域样本进行加权重采样,从而逼近目标域的分布。2)特征层面自适应,将源域和目标域投影到公共特征子空间。3)模型层面自适应,对源域误差函数进行修改,考虑目标域的误差。
image.png样本自适应:其基本思想是对源域样本进行重采样,从而使得重采样后的源域样本和目标域样本分布基本一致,在重采样的样本集合上重新学习分类器
特征自适应:其基本思想是学习公共的特征表示,在公共特征空间,源域和目标域的分布要尽可能相同。上图中所示为Long等人基于DL的迁移学习框架,其网络结构和标准CNN基本一致,不同之处在于对最后的全连接层特征增加了一个MMD约束,使得源域和目标域要具有尽可能相同的分布。通过特征自适应,将输入的样本投影到公共子空间,通过计算源域的经验误差,逼近目标域的经验误差能相同的分布
模型自适应:其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路,一是直接建模模型,但是在模型中加入“domain间距离近”的约束,二是采用迭代的方法,渐进的对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。
image.png样本自适应作用于最前端,适合于源域和目标域分布差异小的情况。特征自适应适用于于源域和目标域有一定差异的情况。模型自适应的适用范围最广,能够应用于源域和目标域差异比较大的场景。
未来工作:
1)探索新的度量域分布差异的准则。
2)如何避免有害的迁移。
3)如何对特定应用选择适合的迁移学习方法。
4)无监督的领域自适应:大规模的无标注目标域数据以及深度迁移学习方法。
最新进展可参考:https://mp.weixin.qq.com/s/TJjgyL4dR2cMfbk8DUmbfw
综述文章:Generalizing to Unseen Domains: A Survey on Domain Generalization
网友评论