Sigmoid将输出映射到(0,1)区间,并将线性数据映射到非线性空间
ReLU将输出映射到(0,♾)范围内,本质上是,为的是剔除不必要的负值数据,相较于Sigmoid函数,ReLU更适合应用梯度下降算法的机器学习当中,因为在离原点较远的位置,Sigmoid函数的梯度下降很慢,参数调整起来效率更是非常缓慢
在二分类的问题中,对于输出层,因为𝑦的值是 0 或 1,所以想让𝑦的数值介于 0 和 1 之间,而不是在-1 和+1 之间,所以需要使用 sigmoid 激活函数。其它情况下基本不用sigmoid函数了。
sigmoid 函数和 tanh 函数两者共同的缺点是,在𝑧特别大或者特别小的情况下,导数的梯度或者函数的斜率会变得特别小,最后就会接近于 0,导致降低梯度下降的速度。
网友评论