Deep-Learning-with-PyTorch-2.3.1

作者: 追求科技的足球 | 来源:发表于2020-09-10 21:27 被阅读0次

Deep-Learning-with-PyTorch-2.3.1

2.3.1 NeuralTalk2

可以在https://github.com/deep-learning-with-pytorch/ImageCaptioning.pytorch中找到NeuralTalk2模型。我们可以在数据目录中放置一组图像并运行以下脚本：

python eval.py --model ./data/FC/fc-model.pth --infos_path ./data/FC/fc-infos.pkl --image_folder ./data

让我们用horse.jpg图片尝试一下。它说：“一个人在海滩上骑马。”很合适。

现在，只是为了好玩，让我们看看我们的CycleGAN是否也可以欺骗此NeuralTalk2模型。让我们在数据文件夹中添加zebra.jpg图片，然后重新运行模型：“一群斑马正站在田野中。” 好吧，它使动物正确，但它在图像中看到了不止一只斑马。当然，这不是网络从未见过斑马的姿势，也从未见过骑在斑马上的骑手（带有一些伪造的斑马图案；此外，很有可能在训练数据集中将斑马描绘成群，因此我们可能会发现一些偏见。字幕网络也没有描述骑手。同样，这可能是出于相同的原因：在训练数据集中，斑马上并没有显示骑手。无论如何，这都是一项令人印象深刻的壮举：我们在不可能的情况下生成了一个伪造的图像，并且字幕网络足够灵活以使主题正确。

我们想强调的是，可以用不到一千行的代码，使用对马或斑马一无所知的通用体系结构，以及一整套图像及其描述（在这种情况下为MS COCO数据集）来获得，在深度学习出现之前，这是很难做到的没有困难的编码的标准或语法-包括句子在内的所有内容都从数据模式中出现。

在后一种情况下，网络架构在某种程度上比我们之前看到的更为复杂，因为它包含两个网络。一个是递归的，但它是由相同的构建块构建而成的，所有这些构建块均由PyTorch提供。

在撰写本文时，诸如此类的模型更多地是作为应用研究或创新项目存在的，而不是具有明确定义的具体用途的模型。结果虽然很有希望，但还不足以使用...。随着时间的推移（以及其他培训数据），我们应该期望此类模型能够向视力障碍者描述世界，转录视频场景并执行其他类似任务。

网友评论

Deep-Learning-with-PyTorch

本文标题：Deep-Learning-with-PyTorch-2.3.1

本文链接：https://www.haomeiwen.com/subject/rwrmektx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Deep-Learning-with-PyTorch-2.3.1

2.3.1 NeuralTalk2

相关文章