美文网首页
Gumbel-Softmax 2020-04-02

Gumbel-Softmax 2020-04-02

作者: 五道口的程序狐 | 来源:发表于2020-04-02 11:24 被阅读0次

    Gumbel-Softmax

    比如你每天都会喝很多次水(比如100次),每次喝水的量也不一样。假设每次喝水的量服从正态分布𝑁(𝜇,𝜎2)(其实也有点不合理,毕竟喝水的多少不能取为负值,不过无伤大雅能理解就好,假设均值为5),那么每天100次喝水里总会有一个最大值,这个最大值服从的分布就是Gumbel分布。

    其实就是softmax的一个改进,从原分布采样Gumbel噪声的采样效果是最好的

    对于强化学习来说,在选择动作之前加一个扰动,相当于增加探索度,感觉上是合理的。对于深度学习的任务来说,添加随机性去模拟分布的样本生成,也是合情合理的。

    相关文章

      网友评论

          本文标题:Gumbel-Softmax 2020-04-02

          本文链接:https://www.haomeiwen.com/subject/ydatphtx.html