限于本人水平,如有谬误敬请指出。
交叉熵合并 softmax 函数:
是一个 的矩阵,其中 是特征的数量, 是分类的数量。
假设 为 的列向量。
运算和 numpy
的广播机制一致。
函数会建立一个长度为 的全零向量,并将第 个索引位置的元素置一。(m 和 y 均从 0 开始计数, 将会建立一个与 输出相同形式的向量)
是一个形状与 形状相同的向量。
这里所有的向量初始状态默认为列向量。
注意:注意矩阵运算中的结果的形状应该以 的形状为准,因为求的梯度为 的梯度。
求解:
部分求导
part 0 求导
part 1 求导
part 2 求导
合并部分导数
依据链式求导法则,合并 part 0, part 1, part 2:(a 为左边,b 为右边)
分别合并 (a), (b):
所有公式和内容均为本人手打,创作权归本人所有,禁止转载。
网友评论