我们可以将监督学习训练的前馈网络视为表示学习的一种形式。具体地,网络的最后一层通常是线性分类器,如 softmax 回归分类器。网络的其余部分学习出该分类器的表示。
贪心逐层无监督预训练
学习算法可以使用无监督阶段学习的信息,在监督学习的阶段表现得更好。其基本想法是对于无监督任务有用的一些特征对于监督学习任务也可能是有用的。例如,如果我们训练汽车和摩托车图像的生成模型,它 需要知道轮子的概念,以及一张图中应该有多少个轮子。如果我们幸运的话,无监 督阶段学习的轮子表示会适合于监督学习。然而我们还未能从数学、理论层面上证 明,因此并不总是能够预测哪种任务能以这种形式从无监督学习中受益。
对训练误差和测试误差的改进都可以解释为,无监督预训练将参数引入到了其他方法可 能探索不到的区域。神经网络训练是非确定性的,并且每次运行都会收敛到不同的 函数。训练可以停止在梯度很小的点;也可以提前终止结束训练,以防过拟合;还可 以停止在梯度很大,但由于诸如随机性或 Hessian 矩阵病态条件等问题难以找到合 适下降方向的点。经过无监督预训练的神经网络会一致地停止在一片相同的函数空 间区域,但未经过预训练的神经网络会一致地停在另一个区域。
预训练的网络越深,测试 误差的均值和方差下降得越多。值得注意的是,这些实验是在训练非常深层网络的 现代方法发明和流行(整流线性单元,Dropout 和批标准化)之前进行的,因此对 于无监督预训练与当前方法的结合,我们所知甚少。
如今,大部分算法已经不使用无监督预训练了,除了在自然语言处理领域中单词 作为 one-hot 向量的自然表示不能传达相似性信息,并且有非常多的未标注数据集 可用。在这种情况下,预训练的优点是可以对一个巨大的未标注集合(例如用包含数 十亿单词的语料库)进行预训练,学习良好的表示(通常是单词,但也可以是句子), 然后使用该表示或精调它,使其适合于训练集样本大幅减少的监督任务。
迁移学习和领域自适应
迁移学习的两种极端形式是一次学习(one-shot learning)和零次学习(zeroshot learning),有时也被称为零数据学习(zero-data learning)。只有一个标注样本 的迁移任务被称为一次学习;没有标注样本的迁移任务被称为零次学习。
例如,已知猫有四条腿和尖尖的耳朵,那么学习器可以在 没有见过猫的情况下猜测该图像中是猫。
分布式表示
比如n 维二元向量是一个分布式表示的示例,有 2n 种配置,每一种都对应输入空间中的一个不同区域
将分布式表示和符号表示区分开来的一个重要概念是,由不同概念之间的共享 属性而产生的泛化。作为纯符号,‘‘猫’’ 和 ‘‘狗’’ 之间的距离和任意其他两种符号的 距离一样。然而,如果将它们与有意义的分布式表示相关联,那么关于猫的很多特 点可以推广到狗,反之亦然。例如,我们的分布式表示可能会包含诸如 ‘‘具有皮毛’’ 或 ‘‘腿的数目’’ 这类在 ‘‘猫’’ 和 ‘‘狗’’ 的嵌入上具有相同值的项。
我们会发现关于输入大小呈指数级增长,关于隐藏单元的数量呈多项式级增 长。
网友评论