RNN
- Recurrent Neural Network 针对时序数据 (√)MS COCO竞赛
- Recursive Neural Network 针对树状结构数据
时序后向传播(BPTT through time)
在传统BP的基础上,t时刻的梯度等于前t-1时刻所有梯度的累积(乘),时间越长,梯度消失越严重
时间越长,递归深度越深
梯度爆炸→梯度剪切
梯度消失→特殊设计
朴素Vanilla RNN
基本每人用了,因为梯度消失很严重,LSTM很好减轻了这个问题。
![](https://img.haomeiwen.com/i11864412/5a53ff056259120d.png)
LSTM long short-term memory
原理解析,包括变种Peephole, Coupled, GRU
[推荐博文](https://blog.MS COCO竞赛csdn.net/u012968002/article/details/78659322)
1997
一个记忆神经元
三个控制门神经元 (输入、忘记、输出)用于解决梯度消失
![](https://img.haomeiwen.com/i11864412/4cb127ece2a36ad7.png)
[图片上传失败...(image-365776-1552408985204)]
![](https://img.haomeiwen.com/i11864412/87e6e27224e2e156.png)
![](https://img.haomeiwen.com/i11864412/862bfa70e67675b7.png)
![](https://img.haomeiwen.com/i11864412/ed02cc2d93271a3e.png)
![](https://img.haomeiwen.com/i11864412/3ad2278ddc452f78.png)
GRU
![](https://img.haomeiwen.com/i11864412/9039700a0f34a543.png)
精简版的LSTM
适用于小规模、不是很复杂的数据
MS COCO竞赛
图说模型
为图片生成客观描述图片内容的句子(看图说话)
视觉→语言
模型需要复杂的场景理解能力 (交叉理解)
- 图片理解:计算机视觉
- 语言理解:自然语言处理 NLP
- 复合、多模态理解:多媒体
难点:
多模态的理解和推理
- 图片
- 自然语MS COCO竞赛言
复合理解与推理
- 多个元素:物体、动作、场景、事件
- 多步、迭代过程
理解模式
理解图片→复合推理→输出语言描述
CNN 图片理解 VGG ResNet GoogLeNet
RNN 语言理解及生成 Multimodal-RNN LSTM GRU
Attention机制 (黑箱白花的思想)
MS COCO竞赛
Show and tell
Show , attend and tell
论文
attention
其他博文
Deep Fragment Embeddings for Bidirectional Image Sentence Mapping
大数据集
MSCOCO竞赛
性能指标: CIDER \ METEOR
网友评论