Chapter - 14 Exercise(1-6)

作者: 博士伦2014 | 来源:发表于2018-11-06 19:25 被阅读0次

你能想到sequence-to-sequenceRNN的一些应用吗？ sequence-to-vector RNN的呢？ vector-to-sequence RNN 的呢？

以下是RNN的一些应用：

对于序列到序列的RNN：预测天气（或任何其他时间序列），机器翻译（使用编码器 - 解码器架构），视频字幕，语音到文本，音乐生成（或其他序列生成），识别歌曲的和弦。

对于序列到矢量RNN：按音乐类型对音乐样本进行分类，分析书评的情绪，根据大脑植入物的读数预测失语症患者正在考虑的单词，预测用户想要观看的概率基于她的观看历史的电影（这是协作过滤的许多可能实现之一）。
对于矢量到序列RNN：图像字幕，基于当前艺术家的嵌入创建音乐播放列表，基于一组参数生成旋律，在图片中定位行人（例如，来自自身的视频帧）驾驶汽车的相机）。

一般来说，如果你一次翻译一个单词，结果会很糟糕。
例如，法语句子“Je vous en prie”的意思是“You are welcome，”如果你一次翻译一个单词，你会得到“I you in pray.”。咦？首先阅读整个句子然后翻译它会好得多。

普通的序列到序列RNN将在读取第一个字之后立即开始翻译句子，而编码器 - 解码器RNN将首先读取整个句子然后翻译它。

也就是说，人们可以想象一个简单的序列到序列的RNN，只要不确定接下来要说什么就会输出静音（就像人类翻译者必须翻译直播时那样）。

要根据视觉内容对视频进行分类，一种可能的架构可能是

如果你也想将音频用于分类，你可以将每秒音频转换为光谱仪(spectrograph)，将此光谱仪输入CNN，并将此CNN的输出馈送到RNN（以及其他CNN的相应输出）。

使用dynamic_rnn（）而不是static_rnn（）对构建RNN有什么好处？
使用dynamic_rnn（）而不是static_rnn（）构建RNN提供了以下几个好处：

要处理可变长度的输入序列，
- 最简单的选择是在调用static_rnn（）或dynamic_rnn（）函数时设置sequence_length参数。
- 另一种选择是填充较小的输入（例如，用零）以使它们与最大输入相同（如果输入序列都具有非常相似的长度，则这可能比第一选项快）。
要处理可变长度输出序列，
- 如果事先知道每个输出序列的长度，可以使用sequence_length参数（例如，考虑一个序列到序列的RNN，用暴力评分标记视频中的每一帧：输出序列与输入序列的长度完全相同）。
- 如果事先不知道输出序列的长度，则可以使用填充技巧：始终输出相同大小的序列，但忽略序列结束标记之后的任何输出（在计算成本函数时忽略它们）。