美文网首页深度学习干货铺
炼丹笔记四:小样本问题

炼丹笔记四:小样本问题

作者: 会写代码的好厨师 | 来源:发表于2019-02-16 16:50 被阅读461次

欢迎大家关注微信公众号:baihuaML白话机器学习

码字不易,如转载请私信我!!原文链接:https://zhuanlan.zhihu.com/p/56365256

在这里,我们一起分享AI的故事。

您可以在后台留言,关于机器学习、深度学习的问题,我们会选择其中的优质问题进行回答!

本期问题

关于深度学习中的小样本问题,有哪些研究进展?

正所谓“巧妇难为无米之炊”,在是使用深度学习解决各种问题的时候,难免会遇到样本不充足的情况。那这个时候应该怎样做呢?

什么是小样本问题?

小样本问题是指研究如何从少量的样本中去学习。众所周知,深度学习的训练需要大量的数据,然而,在实际的生产生活中,可能由于数据采集困难,样本标注代价高等问题,使得训练样本的规模不大,因此,小样本问题就成为了机器学习领域中重要的研究方向之一。本。

小样本会对模型训练带来什么影响?

小样本训练模型时,容易产生过拟合现象。具体以分类问题为例:

对于classification model,有如下结论

训练样本N,h为Vc维数,详见https://www.cnblogs.com/HappyAngel/p/3633989.html

如果现在训练模型的算法能使得training error很小,而model complexity penalty又很小,就能保证test error也很小的概率是 1-η。所以要使得模型的generalization比较好,要保证training error和model complexity penalty都能比较小。观察model complexity penalty项,可以看到,h越大,model complexity penalty就会越大。N越大,model complexity penalty则会越小。大致上讲,越复杂的模型有着越大的h(VC dimension),所以为了使得模型有着好的generalization,需要有较大的N来压低model complexity penalty。 这就是为什么深度学习的模型需要大量的数据来训练,否则模型的generalization会比较差,也就是过拟合。

目前关于小样本问题,有哪些研究进展?

对于小样本问题的研究主要有:

1. zero-shot learning(零样本学习),即要识别训练集中没有出现过的类别样本,虽然类别不存在,但是我们可以学习到一个映射X->Y。如果这个映射足够好的话,我们就可以处理没有看到的类了。 比如,我们在训练时没有看见过狮子的图像,但是我们可以用这个映射得到狮子的特征。一个好的狮子特征,可能就和猫,老虎等等比较接近,和汽车,飞机比较远离。

最早出现zero-shot的文章:

http://www.cs.cmu.edu/afs/cs/project/theo-73/www/papers/zero-shot-learning.pdf (zero-shot)

目前关于zero-shot已经出现很多优秀的成果,比如:

【1】Zero-Shot Object Detection

【2】Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths

【3】Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs

【4】Xian Y, Lampert C H, Schiele B, et al. Zero-shot learning-A comprehensive evaluation of the good, the bad and the ugly[J]. IEEE transactions on pattern analysis and machine intelligence, 2018

【4】等等

2. one-shot learning/few shot learning,即在训练集中,每一类都有一张或者几张样,主要方法可以关注迁移学习、meta-learning,metric-learning的相关研究进展。单例学习是迁移学习/Domain Adaptation的一个特例。模型在source domain训练好之后,迁移到target domain,target domain只用一个标记样本去训练模型的参数就可以了。

图8 平衡车单例识别

比如识别平衡车。训练时,source domain有大量标记样本,比如自行车、独行车、摩托车和轿车等类别,模型可以从source domain学到表示车的有效特征,比如有轮子、轮子尺寸大小、有踏板、方向盘或龙头等。测试时,在target domian,只需要一个或很少一些target domain的标记样本,比如只需要在模型可以准确识别车的条件下,给模型一张平衡车的标记图片就可以了。

更多内容推荐阅读:

【领域报告】小样本学习年度进展|VALSE2018,连接地址:https://blog.csdn.net/XWUkefr2tnh4/article/details/80729940

《few shot learning调研》链接地址:https://zhuanlan.zhihu.com/p/56014325

最早出现one-shot的文章:http://vision.stanford.edu/documents/Fei-FeiFergusPerona2006.pdf (one-shot)

实际上,Zero/One-shot learning都属于transfer learning,要点在于先学到好的X->Y的关系,希望能应用到其他问题上。

3. 从数据增强的角度来看,也可以用来解决one-shot,zero-shot的相关问题

第一,利用流信息学习one-shot模型,常见的有半监督学习和transductive learning,探讨的是如何用无标签数据去做one-shot learning。

第二,在有预训练模型时,用这些预训练模型进行数据增强。

第三,从相近的类别借用数据,来增强训练数据集。

第四,合成新的有标签训练数据,用一些遥感里的方法,可以合成一些图像,或者3d物体。

第五,用GAN来学习合成模型,比如最近用GAN来做personal ID和人脸相关研究。

第六,属性引导的增强方法。具体大家可以在文章里进行详细了解。 

几个小样本问题的数据集

1. 提供几个最常用的Zero-Shot Learning的数据集,均为GoogleNet提取的图片特征,引用相应数据时,请注意对应作者的引用说明。

AwA:http://pan.baidu.com/s/1nvPzsXb

CUB:http://pan.baidu.com/s/1nv3KCYH

aPaY:http://pan.baidu.com/s/1hseSzVe

SUN:http://pan.baidu.com/s/1gfAc33X

ImageNet2:http://pan.baidu.com/s/1pLfZYQ3

2. one-shot learning 数据集

Omniglot

行人Reid数据集:Viper/CUHK01

欢迎加入深度学习、机器学习技术研讨群!

745224003

欢迎关注我们的微信公众号:baihuaML,白话机器学习

关注知乎“会写代码的好厨师”

相关文章

  • 炼丹笔记四:小样本问题

    欢迎大家关注微信公众号:baihuaML,白话机器学习。 码字不易,如转载请私信我!!原文链接:https://z...

  • 炼丹笔记一:样本不平衡问题

    欢迎大家关注微信公众号:baihuaML,白话机器学习。 码字不易,如转载请私信我!!原文链接:https://z...

  • 炼丹解惑 四

    原文地址[https://blog.csdn.net/qq_22210253/article/details/85...

  • 概率统计组队学习 之 数理统计

    摘要:数理统计概念、描述性统计の学习笔记涉及概念:总体,个体,样本,容量,样本均值,样本方差,k阶样本原点矩,k阶...

  • 《营造意匠》·细部中的纳甲压白

    仅作笔记,无作他用 八卦纳甲源于《周易参同契》,此书目的是宣传炼丹成仙,书中许多古奥的词句描述炼丹西汉末期,利用《...

  • 向下取样 under sampling

    可以实现实现子样本生成和子样本选取。 子样本生成:生成的数据子集小且不属于原数据集 子样本选取:生成的数据子集小且...

  • 微信小程序---保留小数(toFixed) 四舍五入 获取整数

    今天遇到了不少问题,问题虽小,还是得做个笔记. 关于微信小程序保留小数(toFixed) 四舍五入,获取整数的问题...

  • 修真世界深度设定(三)炼丹

    目录: 设定一:为什么要炼丹 设定二:炼丹的流程 设定三:丹药的品级 设定四:丹毒设定 设定五:成丹的品质,“炸炉...

  • 骨嵘岛 第四章

    第三章 乌枫将贤者之石放在炼丹炉之上,发动灵力,贤者之石立刻分成四块毫无缝隙地镶嵌在炼丹炉的四个凹槽上。“...

  • 机器学习样本不均衡问题

    解决方案1:上采样或者下采样解决方案2:给样本配置比例系数,样本比例大的比例系数小,样本比例小的比例系数大。解决方...

网友评论

    本文标题:炼丹笔记四:小样本问题

    本文链接:https://www.haomeiwen.com/subject/cxhieqtx.html