GELU 激活函数
损失函数详解:https://mp.weixin.qq.com/s/pA9JW75p9J5e5KHe3ifcBQ
参考链接:https://blog.csdn.net/liruihongbob/article/details/86510622
原理上其实就是GELUs正是在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时实验效果要比Relus与ELUs都要好。
![](https://img.haomeiwen.com/i7249901/3735c48179a198c4.png)
gelu的损失函数图:
![](https://img.haomeiwen.com/i7249901/3ae6f4f9979c1b81.png)
GELU 激活函数
损失函数详解:https://mp.weixin.qq.com/s/pA9JW75p9J5e5KHe3ifcBQ
参考链接:https://blog.csdn.net/liruihongbob/article/details/86510622
原理上其实就是GELUs正是在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时实验效果要比Relus与ELUs都要好。
gelu的损失函数图:
本文标题:bert的trick理解-gelu损失函数
本文链接:https://www.haomeiwen.com/subject/nazmaktx.html
网友评论