美文网首页
deep learning

deep learning

作者: 邓泽军_3679 | 来源:发表于2019-12-25 20:25 被阅读0次
    • 1.向量默认的是列向量。
    • 2.L^2范数也叫欧几里范数,L^\infty范数也叫最大范数。||x||_\infty = max|x_i|
    • 3.特征值都是正数的正定,都是非负数的半正定。
    • 4.容量:模型拟合各种函数的能力。

    6.VC维:分类器能够分类的训练样本的最大数目。

    7.非参数模型:KNN。

    8.权重衰减:L^2正则化项,\lambda w^Tw中,\lambda是正则化系数,越大,偏好越小的权重。

    9.k~折交叉验证,将数据集分为k割不重叠的子集。测试误差为k次计算后的平均测试误差。在第i次测试时,数据的第i割子集用于测试集,其余的用于训练。

    10.反向传播(backprop)允许代价函数的信息通过网络向后流动,以便计算梯度。

    11.计算图:计算形式化为图形的方法。

    12.操作(operation):一个变量或者多个变量的简单函数。

    13.正则化:1)参数范数惩罚(L_2L_1);2)数据集增强。3)噪声鲁棒性。4)半监督学习;5)多任务学习;6)提前终止。7)参数绑定和参数共享。8)稀疏表示。稀疏化激活单元。9)bagging和其他集成方法。(模型平均)10)dropout(相当于一个种集成方法。单个步骤训练一小部分的子网络。)11)对抗训练。(在扰动的训练集上训练网络。)

    14小批量的大小:

    • 更大的批量会计算更精确的梯度估计,但回报却是小于线性的。
    • 极小批量通常难以充分利用多核架构。这促使我们使用一些绝对最小批批量,低于这个最小批量不会减少计算时间。
    • 如果批量处理中的所有样本可以并行计算,那么内存消耗和批量大小成正比。对于很多硬件设施,这是批量大小的限制因素。
    • 在使用GPU的时候一般选择2的幂数作为批量大小,可以减少运行时间,一般32~256,16在大模型的时候使用。
    • 可能是小批量在学习过程中加入了噪声,会用一定正则化的效果。

    \color{#00F}{text}

    相关文章

      网友评论

          本文标题:deep learning

          本文链接:https://www.haomeiwen.com/subject/dmlhoctx.html