美文网首页
[監督式]NLP基礎-RNN、LSTM

[監督式]NLP基礎-RNN、LSTM

作者: RJ阿杰 | 来源:发表于2019-03-12 20:20 被阅读0次

RNN

RNN常用來處理序列數據,例如我們有10年每月的天氣紀錄要來預測作物收成,我們必須要知道是否有持續好幾天的高溫造成作物收成不佳,此時就需要RNN了,假如我們使用fully-connected,我們不容易知道資料的序列關係。

  • RNN的一個例子
    假設我們有100年12個月的平均溫度、濕度、日照天數(3個特徵)紀錄共1200筆作為x,以及作物收成量作為y,通常RNN我們會把x分成序列(seq)也分成批次(batch)執行。
    例如: 序列長度(seq_len)=6就是分成6個月,每次輸入就會有6個時刻(1-5或6-12),然後批次大小(batch_size)=10,每批中有60個序列(sequence),表示一次輸入5年的資料,然後特徵數目(feature_num)=3。
    這樣每次輸入的x的矩陣形式就為:
    [序列長度(seq\_len),批次大小(batch\_size),特徵數目(feature\_num)]

RNN只是將上一seq的隱藏層做線性轉換後跟下一seq疊加。


RNN層計算圖
兩層rnn
  • x_t:代表第一個時刻的特徵,例如:1月的平均溫度、平均濕度、日照天數,就會有3個值(ex. [15,40,10])。
  • x_{t+1}:代表第二個時刻的特徵,例如:2月的平均溫度、濕度、日照天數,也會有3個值(ex. [18,40,10])。
  • w_{ih}:特徵到隱藏層(hidden layer)的權重(weight),所有時刻共用同一組權重,尺寸為[feature_num,hidden_size]。
  • w_{hh}:隱藏層 到 隱藏層的權重(weight),所有時刻共用同一組權重,尺寸為[hidden_size,hidden_size] ( 因為h_{t-1}到h_{t}是全連接(fully_connected) )。
  • h_{t-1}:代表上一個時刻神經元的輸出,最一開始的h_{0}可以是零,也可以是上一批最後一個時刻神經元的輸出。
  • h_{t}:這個時刻的神經元的輸出。
  • output_{t}:這個時刻的output,也是最後一層rnn的h_{t}
  • output:output 也是最後一層rnn的h,也可以從h這個Tensor使用[:]切片取最後一層取值。

原理請參考:
李弘毅老師 ML Lecture 21-1: Recurrent Neural Network (Part I)
循环神经网络RNN介绍1:什么是RNN、为什么需要RNN、前后向传播详解、Keras实现

RNN梯度爆炸解決

pytorch的nn.clip_grad_value_()、nn.clip_grad_norm_()梯度裁剪(使梯度大於或小於某個閥值時直接等於閥值),常用來解決RNN梯度變化大造成的梯度爆炸的問題。

RNN常見的梯度爆炸問題
梯度裁剪

實作

Code from Github-gist

輸入前六個值,預測第7個值
輸入第一個點後,由第一個點預測第二個點,再由那個預測的點預測下一個點。

LSTM

引用李弘毅老師的人體LSTM
引用李弘毅老師的人體LSTM
引用李弘毅老師的人體LSTM
引用李弘毅老師的人體LSTM




LSTM最後一層的ht就是output

實作

Code from Github-gist--Chat robot
Code from Github--sentimebt anasisly


只有epoch 100回

GRU

其他參考:
速記AI課程-深度學習入門(二)
A Beginner's Guide to LSTMs and Recurrent Neural Networks
The Unreasonable Effectiveness of Recurrent Neural Networks
Understanding LSTM Networks

相关文章

网友评论

      本文标题:[監督式]NLP基礎-RNN、LSTM

      本文链接:https://www.haomeiwen.com/subject/oelxuqtx.html