1. 探究不同的user_dim和entity_dim对结果的影响?是否dim越大越好?如果只是8是不是太小?
wanghongwei本尊的结论:
embedding size,感觉大部分推荐系统的算法对embedding size都不是太敏感,甚至有时候一位数都足够了(主要取决于数据的稀疏程度)。大部分情况下,8~32的embedding size可能是比较好的选择,如果你是按照2的幂进行调参的话。
MKR: movie 8;music 8; book 4
DKN: word embedding:100. entity 100
RippleNet: movie:16. book: 4
KGNN-LS: movie 32 book: 64 music: 16 restaurant: 8
KGCN: movie 32 book:64 music: 16
2,leakyrelu>tanh>>>sigmoid,relu
不同的激活函数为什么会影响那么大
尤其是tanh和simoid同属于S曲线家族。而leaky relu和relu也是。
1.首先尝试ReLU,速度快,但小心设置 learning rate,注意不要让网络出现很多 “dead” 神经元
2.如果ReLU效果欠佳,尝试 Leaky ReLU、PReLU 、Maxout 或者 ELU函数
3.sigmoid、tanh 常应用在RNN(LSTM、注意力机制等),作为门控或者概率值
4.很少会把各种激活函数串起来在一个网络中使用
5.在ResNet 50上测试,同等条件下,性能对比 ReLU > RReLU > SELU(1.0) >ELU(1.0) = LeakyReLu(0.1) > LeakyReLu(0.2) > PReLU
网友评论