美文网首页Deep-Learning-with-PyTorch
Deep-Learning-with-PyTorch-2.3.1

Deep-Learning-with-PyTorch-2.3.1

作者: 追求科技的足球 | 来源:发表于2020-09-10 21:27 被阅读0次

    2.3.1 NeuralTalk2

    可以在https://github.com/deep-learning-with-pytorch/ImageCaptioning.pytorch中找到NeuralTalk2模型。 我们可以在数据目录中放置一组图像并运行以下脚本:

    python eval.py --model ./data/FC/fc-model.pth --infos_path ./data/FC/fc-infos.pkl --image_folder ./data
    

    让我们用horse.jpg图片尝试一下。 它说:“一个人在海滩上骑马。”很合适。

    现在,只是为了好玩,让我们看看我们的CycleGAN是否也可以欺骗此NeuralTalk2模型。 让我们在数据文件夹中添加zebra.jpg图片,然后重新运行模型:“一群斑马正站在田野中。” 好吧,它使动物正确,但它在图像中看到了不止一只斑马。 当然,这不是网络从未见过斑马的姿势,也从未见过骑在斑马上的骑手(带有一些伪造的斑马图案;此外,很有可能在训练数据集中将斑马描绘成群,因此我们可能会发现一些偏见。 字幕网络也没有描述骑手。 同样,这可能是出于相同的原因:在训练数据集中,斑马上并没有显示骑手。 无论如何,这都是一项令人印象深刻的壮举:我们在不可能的情况下生成了一个伪造的图像,并且字幕网络足够灵活以使主题正确。

    我们想强调的是,可以用不到一千行的代码,使用对马或斑马一无所知的通用体系结构,以及一整套图像及其描述(在这种情况下为MS COCO数据集)来获得,在深度学习出现之前,这是很难做到的 没有困难的编码的标准或语法-包括句子在内的所有内容都从数据模式中出现。

    在后一种情况下,网络架构在某种程度上比我们之前看到的更为复杂,因为它包含两个网络。 一个是递归的,但它是由相同的构建块构建而成的,所有这些构建块均由PyTorch提供。

    在撰写本文时,诸如此类的模型更多地是作为应用研究或创新项目存在的,而不是具有明确定义的具体用途的模型。 结果虽然很有希望,但还不足以使用...。 随着时间的推移(以及其他培训数据),我们应该期望此类模型能够向视力障碍者描述世界,转录视频场景并执行其他类似任务。

    相关文章

      网友评论

        本文标题:Deep-Learning-with-PyTorch-2.3.1

        本文链接:https://www.haomeiwen.com/subject/rwrmektx.html