美文网首页
Sora-Part03

Sora-Part03

作者: 兔大人 | 来源:发表于2024-03-11 18:04 被阅读0次

    这一节是用AI来做一个自己的短片,一般来说,视频生成的大致流程是:

    1. 使用ChatGPT等LLM模型,写分镜剧本;
    2. 使用SD, MJ等软件画图;
    3. 利用SVD, Pika, Runway等软件生成视频。

    下面是我的尝试:

    1. 使用Google Gemini生成分镜剧本。以下是我的prompt:
    帮我写一个故事的分镜镜头。
    这个故事是关于一个亚洲少年向盆景大师学习盆景制作,然后参加盆景比赛并最终获奖的故事。
    

    Gemini生成的结果:

    故事分镜镜头
    
    场景: 一个宁静的盆景园
    
    人物:
    
    少年:16岁,对盆景充满热情
    大师:70岁,经验丰富的盆景大师
    镜头 1
    
    外景:阳光明媚的早晨
    少年骑着自行车来到盆景园,看到大师正在修剪一盆松树。
    少年:大师,您好!我来学习盆景制作。
    镜头 2
    
    近景:大师慈祥地看着少年
    大师:你好,孩子。你愿意学习盆景,我很高兴。
    镜头 3
    
    中景:少年和大师在盆景园里学习
    大师教少年如何挑选树苗、修剪枝叶、蟠扎造型等。
    少年认真学习,进步很快。
    镜头 4
    
    近景:少年精心制作一盆盆景
    他用几个月的时间,将一棵普通的树苗培育成一盆精致的盆景。
    镜头 5
    
    外景:盆景比赛现场
    少年带着他的盆景参加比赛,与来自各地的选手同台竞技。
    镜头 6
    
    中景:评委们仔细观赏少年的盆景
    他们对少年的作品赞赏不已。
    镜头 7
    
    近景:少年获得比赛一等奖
    他站在领奖台上,脸上洋溢着喜悦的笑容。
    镜头 8
    
    外景:夕阳西下,少年和大师在盆景园里聊天
    少年:大师,谢谢您的教导。我一定会继续努力,成为一名优秀的盆景师。
    镜头 9
    
    近景:大师欣慰地看着少年
    大师:我相信你一定会成功的。
    镜头 10
    
    远景:少年和大师在盆景园里忙碌的身影
    他们将继续为盆景艺术贡献自己的力量。
    镜头 11
    
    画面逐渐模糊,故事结束
    备注:
    
    以上只是故事的分镜镜头,具体的细节可以根据需要进行调整。
    故事的主题可以是少年对梦想的追求,也可以是师徒之间的传承。
    希望这个故事能够给你带来一些启发。
    

    做简单修改(但其实这两处修改并不会影响生成的图/视频):

    人物:
    16岁-->18岁
    
    镜头4
    他用几个月的时间-->他用几年的时间
    

    用Gemini将中文翻译成英文,然后使用Modelscope的AnimateDiff库做text to video(跳过文生图再生成视频,直接文生视频一步到位),脚本如下:

    import torch
    from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
    from diffusers.utils import export_to_gif
    from modelscope import snapshot_download
    
    def get_frames(prompt):
        output = pipe(
            prompt=prompt,
            negative_prompt="bad quality, worse quality",
            num_frames=16,
            guidance_scale=7.5,
            num_inference_steps=25,
            generator=torch.Generator("cpu").manual_seed(42),
        )
        frames = output.frames[0]
        return frames
    
    prompt_base_description = "masterpiece, bestquality, highlydetailed, ultradetailed, "
    
    prompt_shot1_1 = (
        prompt_base_description +
        "Sunny morning, " "An 18 year old boy is walking to a bonsai garden, " 
    )
    
    prompt_shot1_2 = (
        prompt_base_description +
        "Sunny morning, " "Bonsai garden, " "An old bonsai master is trimming a pipe tree"
    )
    
    model_dir = snapshot_download("Shanghai_AI_Laboratory/animatediff-motion-adapter-v1-5-2")
    adapter = MotionAdapter.from_pretrained(model_dir)
    model_id = snapshot_download("wyj123456/Realistic_Vision_V5.1_noVAE")
    pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
    scheduler = DDIMScheduler.from_pretrained(
        model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
    )
    pipe.scheduler = scheduler
    
    pipe.enable_vae_slicing()
    pipe.enable_model_cpu_offload()
    
    # Shot 1-1
    # frames = get_frames(prompt_shot1_1)
    # export_to_gif(frames, "animation.gif")
    # !mv animation.gif shot1_1.gif
    
    # Shot 1-2
    frames = get_frames(prompt_shot1_2)
    export_to_gif(frames, "animation.gif")
    !mv animation.gif shot1_2.gif
    

    注:

    1. 这里本来想直接根据shot 1的英文场景描述做出视频,但发现AnimateDiff目前的模型animatediff-motion-adapter-v1-5-2没办法生成如此复杂的场景。于是对shot 1再做场景切分,变为两幕;
    2. shot 1-1本来是少年骑车到盆景园,但反复尝试生成的都是少年在盆景园里骑车,看起来感觉有点鲁莽,于是将“骑车”改为“走”:
    An 18 year old boy is walking to a bonsai garden
    
    1. 生成的视频往往不能完全涵盖想要的关键信息,比如,shot 1-1,即使是上面简单的这句描述,也经常会生成“只有一盆盆景”或“只有一个盆景园”的场景,“An 18 year old boy”完全不在画面中。此时,需要不断更改prompt描述或随即种子(纯纯“抽卡”了属于是😂)才有可能挑选到心仪的视频。

    不合格视频示例(画面中只有一个bonsai,而“An 18 year old boy”完全不在画面中):


    shot1_1_failed.gif

    下面是做的shot1-1和shot1-2:

    1. shot1-1:


      shot1_1.gif
    2. shot1-2:


      shot1_2.gif

    按照如上的方法,不断对shot进行切分,生成视频,然后使用视频剪辑工具(剪映等),做后期加工(拼接、加字幕等)

    以上,做个记录,也是抛砖引玉。

    相关文章

      网友评论

          本文标题:Sora-Part03

          本文链接:https://www.haomeiwen.com/subject/hfgmzdtx.html