Sora-Part03

作者: 兔大人 | 来源:发表于2024-03-11 18:04 被阅读0次

这一节是用AI来做一个自己的短片，一般来说，视频生成的大致流程是：

使用ChatGPT等LLM模型，写分镜剧本；
使用SD, MJ等软件画图；
利用SVD, Pika, Runway等软件生成视频。

下面是我的尝试：

使用Google Gemini生成分镜剧本。以下是我的prompt:

帮我写一个故事的分镜镜头。
这个故事是关于一个亚洲少年向盆景大师学习盆景制作，然后参加盆景比赛并最终获奖的故事。

Gemini生成的结果：

故事分镜镜头

场景： 一个宁静的盆景园

人物：

少年：16岁，对盆景充满热情
大师：70岁，经验丰富的盆景大师
镜头 1

外景：阳光明媚的早晨
少年骑着自行车来到盆景园，看到大师正在修剪一盆松树。
少年：大师，您好！我来学习盆景制作。
镜头 2

近景：大师慈祥地看着少年
大师：你好，孩子。你愿意学习盆景，我很高兴。
镜头 3

中景：少年和大师在盆景园里学习
大师教少年如何挑选树苗、修剪枝叶、蟠扎造型等。
少年认真学习，进步很快。
镜头 4

近景：少年精心制作一盆盆景
他用几个月的时间，将一棵普通的树苗培育成一盆精致的盆景。
镜头 5

外景：盆景比赛现场
少年带着他的盆景参加比赛，与来自各地的选手同台竞技。
镜头 6

中景：评委们仔细观赏少年的盆景
他们对少年的作品赞赏不已。
镜头 7

近景：少年获得比赛一等奖
他站在领奖台上，脸上洋溢着喜悦的笑容。
镜头 8

外景：夕阳西下，少年和大师在盆景园里聊天
少年：大师，谢谢您的教导。我一定会继续努力，成为一名优秀的盆景师。
镜头 9

近景：大师欣慰地看着少年
大师：我相信你一定会成功的。
镜头 10

远景：少年和大师在盆景园里忙碌的身影
他们将继续为盆景艺术贡献自己的力量。
镜头 11

画面逐渐模糊，故事结束
备注：

以上只是故事的分镜镜头，具体的细节可以根据需要进行调整。
故事的主题可以是少年对梦想的追求，也可以是师徒之间的传承。
希望这个故事能够给你带来一些启发。

做简单修改（但其实这两处修改并不会影响生成的图/视频）：

人物：
16岁-->18岁

镜头4
他用几个月的时间-->他用几年的时间

用Gemini将中文翻译成英文，然后使用Modelscope的AnimateDiff库做text to video（跳过文生图再生成视频，直接文生视频一步到位），脚本如下：

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif
from modelscope import snapshot_download

def get_frames(prompt):
    output = pipe(
        prompt=prompt,
        negative_prompt="bad quality, worse quality",
        num_frames=16,
        guidance_scale=7.5,
        num_inference_steps=25,
        generator=torch.Generator("cpu").manual_seed(42),
    )
    frames = output.frames[0]
    return frames

prompt_base_description = "masterpiece, bestquality, highlydetailed, ultradetailed, "

prompt_shot1_1 = (
    prompt_base_description +
    "Sunny morning, " "An 18 year old boy is walking to a bonsai garden, " 
)

prompt_shot1_2 = (
    prompt_base_description +
    "Sunny morning, " "Bonsai garden, " "An old bonsai master is trimming a pipe tree"
)

model_dir = snapshot_download("Shanghai_AI_Laboratory/animatediff-motion-adapter-v1-5-2")
adapter = MotionAdapter.from_pretrained(model_dir)
model_id = snapshot_download("wyj123456/Realistic_Vision_V5.1_noVAE")
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
    model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler

pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

# Shot 1-1
# frames = get_frames(prompt_shot1_1)
# export_to_gif(frames, "animation.gif")
# !mv animation.gif shot1_1.gif

# Shot 1-2
frames = get_frames(prompt_shot1_2)
export_to_gif(frames, "animation.gif")
!mv animation.gif shot1_2.gif

注：

这里本来想直接根据shot 1的英文场景描述做出视频，但发现AnimateDiff目前的模型animatediff-motion-adapter-v1-5-2没办法生成如此复杂的场景。于是对shot 1再做场景切分，变为两幕；
shot 1-1本来是少年骑车到盆景园，但反复尝试生成的都是少年在盆景园里骑车，看起来感觉有点鲁莽，于是将“骑车”改为“走”：

An 18 year old boy is walking to a bonsai garden

生成的视频往往不能完全涵盖想要的关键信息，比如，shot 1-1，即使是上面简单的这句描述，也经常会生成“只有一盆盆景”或“只有一个盆景园”的场景，“An 18 year old boy”完全不在画面中。此时，需要不断更改prompt描述或随即种子（纯纯“抽卡”了属于是😂）才有可能挑选到心仪的视频。

不合格视频示例（画面中只有一个bonsai，而“An 18 year old boy”完全不在画面中）：

shot1_1_failed.gif

下面是做的shot1-1和shot1-2：

shot1-1:

shot1_1.gif
shot1-2:

shot1_2.gif

按照如上的方法，不断对shot进行切分，生成视频，然后使用视频剪辑工具（剪映等），做后期加工（拼接、加字幕等）

以上，做个记录，也是抛砖引玉。

网友评论

本文标题：Sora-Part03

本文链接：https://www.haomeiwen.com/subject/hfgmzdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Sora-Part03

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读