一、概述
Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks (LSTNet)
这篇是发表在SIGIR2018的一篇文章(2017发在了Arxiv上),主要内容就是一个用于做时序预测的复合网络结构。
时序预测没什么好说的,也是一个相对久远的任务了。
经典一元模型有AR、MA、ARCH、ARMA(ARIMA)等等,也有多元时序回归预测VARMA,以及非线性时序回归预测。
LSTM提出后,基于其可存贮序列数据的历史信息的特性,也有很多人做RNN(多为LSTM和GRU)网络模型在时序预测方面的研究。
但是RNN的模型做时序预测,过于依赖预测值前一天的值。
二、关于本文
文章提出的模型,主要就是先用CNN来提取短期多元(窗口内)信息,然后将CNN提取的处理后序列信息扔进RNN(这里用的是GRU)和Skip-RNN,最后将 CNN + RNN + (SKIP |ATT) 输出的结果与AR的结果做一个拼接Merge,作为最后的输出。
三、LSTNet
CNN Component
正常的CNN 序列处理,就和做CNN文本处理一样,Conv1D模型,多个卷积核做卷积操作,最后作为RNN层的训练数据。
激活函数RELU。
CNN Component
RNN Component
正常的一层GRU , 激活函数RELU。
GRU
Skip - RNN Component
p是设置跳跃的间隔距离
Recurrent-skip Component Recurrent-skip Component
Attention Component
AttentionH^R,t 是隐层(上一层RNN)的matrix,h是Hmatrix中的column
即H = [h t-q, ... , h t-1]
αt就是得到的注意力矩阵,将Ht * αt 得到注意力加权过的新的隐层序列。
ht
最后一个window 的隐层向量使用简单的线性投影得到。
AR Component
ARLSTNet Architecture
目标函数
在大多数预测任务中,都把最小均方误差做为默认的损失函数。而在LSTNet中,使用绝对误差作为目标函数。
优化策略
SGD & Adam
四、评测任务
Baseline
4.5 Main Results
image.pngReference:
Original Paper (LSTNet)
Open Source Code By Author
网友评论