1.图形
给定单隐层,足够的node,感知机能够模拟任何函数
An MLP with a hidden layer of 5 hidden units
2.从线性到非线性
线性
非线性
多层非线性
3.正则化
(1)L2正则
(2)Dropunt
一个放大过程,保证剩余点产生的输出值不变。
3.正向传播与反向传播
(1)正向传播
#损失函数
#L2正则损失
#加了正则的损失函数
(2)返向传播
4.梯度消失与梯度爆炸
- 参数初始化:正态分布初始化与泽维尔初始化
(1)正态分布初始化
(2)泽维尔初始化
#线性层输出
假设权重参数W平均数为0,方差为,同时假设输出具有平均数为0
方差为分布,且假设它们之间全部独立。我们可以计算它的输出平均数与方差
如何把固定为1呢?
网友评论