认为sigmoid输出单元有两个部分。首先,它使用一个线性层来计算 z = wTh + b (T是w的转置)。其次,它使用sigmoid激活函数将z转化为概率。
暂时忽略对x的依赖性,只讨论如何用z的值来定义y的概率分布。sigmoid可以通过构造一个非归一化(和不为1)的概率分布P(y)‘ 来得到。
可以随后除以一个合适的常数来得到有效的概率分布。
如果假定非归一化的对数概率对y和z是线性的,可以对它取指数来得到非归一化的概率。然后对它归一化,可以发现这服从Bernoulli分布,该分布受z的sigmoid变换控制
网友评论