- 1.向量默认的是列向量。
- 2.范数也叫欧几里范数,范数也叫最大范数。。
- 3.特征值都是正数的正定,都是非负数的半正定。
- 4.容量:模型拟合各种函数的能力。
6.VC维:分类器能够分类的训练样本的最大数目。
7.非参数模型:KNN。
8.权重衰减:正则化项,中,是正则化系数,越大,偏好越小的权重。
9.~折交叉验证,将数据集分为k割不重叠的子集。测试误差为k次计算后的平均测试误差。在第i次测试时,数据的第i割子集用于测试集,其余的用于训练。
10.反向传播(backprop)允许代价函数的信息通过网络向后流动,以便计算梯度。
11.计算图:计算形式化为图形的方法。
12.操作(operation):一个变量或者多个变量的简单函数。
13.正则化:1)参数范数惩罚(和);2)数据集增强。3)噪声鲁棒性。4)半监督学习;5)多任务学习;6)提前终止。7)参数绑定和参数共享。8)稀疏表示。稀疏化激活单元。9)bagging和其他集成方法。(模型平均)10)dropout(相当于一个种集成方法。单个步骤训练一小部分的子网络。)11)对抗训练。(在扰动的训练集上训练网络。)
14小批量的大小:
- 更大的批量会计算更精确的梯度估计,但回报却是小于线性的。
- 极小批量通常难以充分利用多核架构。这促使我们使用一些绝对最小批批量,低于这个最小批量不会减少计算时间。
- 如果批量处理中的所有样本可以并行计算,那么内存消耗和批量大小成正比。对于很多硬件设施,这是批量大小的限制因素。
- 在使用GPU的时候一般选择2的幂数作为批量大小,可以减少运行时间,一般32~256,16在大模型的时候使用。
- 可能是小批量在学习过程中加入了噪声,会用一定正则化的效果。
网友评论