一般说网络层数时,是不包括输入的。假设有一个三层网络(即两个隐藏层和一个输出层),它的输入维度是3072,第一个隐藏层的维度是1000,第二个隐藏层的维度是500,输出层的维度是10,则网络的结构大致像下面的样子:
箭头上方的数字指示了在层与层之间流动的数据的shape再加入权重矩阵(不考虑偏置):
权重作用于两个层之间,但一般会说是某个层的权重。比如上面的3072x1000一般认为是第一个隐藏层的权重,而500x10是输出层的权重。
上面的网络是全连接的,是线性变换,如果引入激活函数(及softmax等):
激活函数一般不会改变数据的shape。
最终的softmax直接计算了loss及梯度(关于数据x的梯度,因为输出层和softmax之间并没有权重等参数)。
网友评论