美文网首页
图像描述(图说Image Captioning) 笔记

图像描述(图说Image Captioning) 笔记

作者: 音符纸飞机 | 来源:发表于2019-03-13 00:56 被阅读0次

论文列表

RNN

  • Recurrent Neural Network 针对时序数据 (√)MS COCO竞赛
  • Recursive Neural Network 针对树状结构数据

时序后向传播(BPTT through time)
在传统BP的基础上,t时刻的梯度等于前t-1时刻所有梯度的累积(乘),时间越长,梯度消失越严重
时间越长,递归深度越深
梯度爆炸→梯度剪切
梯度消失→特殊设计

朴素Vanilla RNN

基本每人用了,因为梯度消失很严重,LSTM很好减轻了这个问题。


RNN, U V W 共享

LSTM long short-term memory

原理解析,包括变种Peephole, Coupled, GRU
[推荐博文](https://blog.MS COCO竞赛csdn.net/u012968002/article/details/78659322)
1997
一个记忆神经元
三个控制门神经元 (输入、忘记、输出)用于解决梯度消失

LSTM
[图片上传失败...(image-365776-1552408985204)] C_(t-1) →C_(t)是cell state(细胞状态、记忆信息) h_(t)是隐藏层状态 忘记门:决定前一时刻中多少记忆被移除,f_t属于[0,1], 1表示“完全保留”,0表示“完全舍弃” 控制门:决定当前时刻的输入信息有多少需要存入细胞(记忆) 输出门:

GRU

GRU

精简版的LSTM
适用于小规模、不是很复杂的数据

MS COCO竞赛

图说模型

为图片生成客观描述图片内容的句子(看图说话)
视觉→语言
模型需要复杂的场景理解能力 (交叉理解)

  • 图片理解:计算机视觉
  • 语言理解:自然语言处理 NLP
  • 复合、多模态理解:多媒体
难点:

多模态的理解和推理

  • 图片
  • 自然语MS COCO竞赛言

复合理解与推理

  • 多个元素:物体、动作、场景、事件
  • 多步、迭代过程

理解模式

理解图片→复合推理→输出语言描述
CNN 图片理解 VGG ResNet GoogLeNet
RNN 语言理解及生成 Multimodal-RNN LSTM GRU
Attention机制 (黑箱白花的思想)
MS COCO竞赛

Show and tell

论文
论文翻译

Show , attend and tell

论文
attention

其他博文

Deep Fragment Embeddings for Bidirectional Image Sentence Mapping

大数据集

MSCOCO竞赛
性能指标: CIDER \ METEOR

相关文章

网友评论

      本文标题:图像描述(图说Image Captioning) 笔记

      本文链接:https://www.haomeiwen.com/subject/prvnpqtx.html