RNN

RNN常用來處理序列數據，例如我們有10年每月的天氣紀錄要來預測作物收成，我們必須要知道是否有持續好幾天的高溫造成作物收成不佳，此時就需要RNN了，假如我們使用fully-connected，我們不容易知道資料的序列關係。

RNN的一個例子
假設我們有100年12個月的平均溫度、濕度、日照天數(3個特徵)紀錄共1200筆作為 $x$ ，以及作物收成量作為 $y$ ，通常RNN我們會把 $x$ 分成序列(seq)也分成批次(batch)執行。
例如: 序列長度(seq_len)=6就是分成6個月，每次輸入就會有6個時刻(1-5或6-12)，然後批次大小(batch_size)=10，每批中有60個序列(sequence)，表示一次輸入5年的資料，然後特徵數目(feature_num)=3。
這樣每次輸入的 $x$ 的矩陣形式就為：
$[序列長度(seq\_len),批次大小(batch\_size),特徵數目(feature\_num)]$

RNN只是將上一seq的隱藏層做線性轉換後跟下一seq疊加。

RNN層計算圖

兩層rnn

$x_t$ ：代表第一個時刻的特徵，例如:1月的平均溫度、平均濕度、日照天數，就會有3個值(ex. [15,40,10])。
$x_{t+1}$ ：代表第二個時刻的特徵，例如:2月的平均溫度、濕度、日照天數，也會有3個值(ex. [18,40,10])。
$w_{ih}$ ：特徵到隱藏層(hidden layer)的權重(weight)，所有時刻共用同一組權重，尺寸為[feature_num,hidden_size]。
$w_{hh}$ ：隱藏層到隱藏層的權重(weight)，所有時刻共用同一組權重，尺寸為[hidden_size,hidden_size] ( 因為 $h_{t-1}到h_{t}$ 是全連接(fully_connected) )。
$h_{t-1}$ ：代表上一個時刻神經元的輸出，最一開始的 $h_{0}$ 可以是零，也可以是上一批最後一個時刻神經元的輸出。
$h_{t}$ ：這個時刻的神經元的輸出。
$output_{t}$ ：這個時刻的output，也是最後一層rnn的 $h_{t}$ 。
$output$ ：output 也是最後一層rnn的 $h$ ，也可以從 $h$ 這個Tensor使用[:]切片取最後一層取值。