- MM - 即根据马尔科夫链MC的模型,MC的前状态→后状态的概率仅由前状态决定。
- HMM - 状态链不可见,故称隐马尔科夫链,此外同MC。隐状态→观察值由发射概率(emission_probability)决定。
- RNN - 结构同HMM。但隐状态链的递进不是由概率,而是其线性变换的某种激活,即h(t+1)=actFunc(wh · h(t) +wx · x + b),actFunc可以是如sigmoid tanh relu等。隐状态→观察值也变成线性变换的激活:y(t)=softmax(w · h(t)+b)。
- LSTM - 大结构同RNN。但从输入x→隐状态h变复杂了,由三个门控制,即f-遗忘、i输入、o输出,重要性依次递减。f(t) i(t) o(t)的值都是σ[w1 · x(t) + w2 · h(t-1) + b],即x和上个h的线性组合(为方便记录,记为l)的sigmoid激活。c(t)=f · c(t-1)+i · σ(l),即f是上个c的权重,i是σ(l)的权重。最终输出的h=o(t) · σ(c)。
- LSTM变形 - 双向(有时后文更重要)、多层(以第一层的h作为第二层的输入。通常不超过三层,因为无法解决层级间的梯度传导问题(小的消失,大的过大))。
网友评论