美文网首页
InseRF在3D场景中插入生成对象

InseRF在3D场景中插入生成对象

作者: 小黄不头秃 | 来源:发表于2024-01-24 10:27 被阅读0次

    InseRF,(Text-Driven Generative Object Insertion in Neural 3D Scenes,基于文本驱动的生成式物体插入三维模型技术)本文首先讨论了最近的3D场景编辑的转换,通过将强先验的2D文本条件扩散模型到3D生成建模。作者指出,虽然现有的方法在修改现有内容方面很有效,但它们通常难以实现3D一致性和本地化编辑,特别是在指示删除对象或在场景中创建新对象时。

    为了解决这一限制,作者提出了InseRF,它基于使用参考2D编辑的插入。该方法在几个3D场景上进行了评估,实验表明该方法能够在3D场景中插入不同的对象,而不需要明确的3D空间指导。

    该文件还对拟议方法及其与现有基线的比较进行了定量评价。该评估基于三个不同的度量:CLIP文本图像相似性,方向文本图像相似性和时间方向一致性。评估结果表明,InseRF在所有三个指标上都有效地优于基线。

    除了定量评估外,本文还提供了使用InseRF在3D场景中插入生成对象的可视化示例。作者还将所提出的方法与基线进行了比较,表明基线在场景中创建目标对象时很困难。本文还讨论了所提出的细化步骤对插入对象的纹理和细节的影响,从而获得更高质量和更真实的插入。

    总的来说,本文提出了一种新的方法生成对象插入在3D场景中,解决了现有方法的局限性。所提出的方法,InseRF,是基于接地插入使用参考2D编辑,并能够3D一致的对象插入,而不需要明确的信息的3D放置。该文件提供了一个定量的评估和可视化的例子,所提出的方法的有效性,突出其优势,现有的基线。

    1、相关词汇

    (1)基于文本的3D场景编辑:利用2D文本条件的扩散模型的强大先验与3D声称是建模中去。存在问题:3D一致性、本地化编辑问题

    (2)从3D场景中移除物体:场景中物体的三维一致性移除和修复

    (3)生成对象插入:作者假设提供了对象的多视图掩码,并提出了一种将单视图修复传播到其他视图的方法

    2、具体方法

    该论文的方法将 3D 场景的 NeRF 重建、要插入的目标对象的文本描述以及场景的参考渲染视图中的 2D 边界框作为输入。作为输出,该方法返回同一场景的 NeRF 重建,其中包含生成的目标 3D 对象,该对象放置在 2D 边界框引导的位置。值得注意的是,该方法只需要一个粗略的边界框,因为该方法依赖扩散模型的先验来进行精确的 2D 定位。该方法由五个主要步骤组成:

    • 基于文本提示和 2D 边界框,在选定的场景参考视图中创建目标对象的 2D 视图;
    • 根据生成的参考图像中的2D视图重建3D对象NeRF;
    • 借助单目深度估计来估计场景中物体的 3D 位置;
    • 将物体和场景 NeRF 融合成一个包含估计放置物体的单个场景;
    • 可选地,对融合的 3D 表示应用细化步骤以进一步改进插入。

    从图中可以看出,输入是一个二维的视角的图片,然后基于一个边框和一段描述可以在制定的位置生成描述的物品。这里使用了两个模型,第一个是Imagen,用于图片生成文字。然后第二个是RePaint,用于画面修复。

    接下来,这张图片将会进入到两个分支:

    (1)单视角物体重建:

    边界框内的物体此时是一个2D图像,那么就是需要在这个单视角下对这个物体进行3维重建。该论文中使用的是SyncDreamer方法进行物体重建(这个方法是重建质量和效率中和的一个方法,这也是一个大模型,有强大的先验)。

    (2)深度估计:

    此时我们获得了一个三维模型,但是我们还不确定其在场景中的位置和深度关系。为了确定物体在三维视锥体中的位置,本文利用先验从单目深度估计的方法。利用了MiDaS对编辑后的参考图估计物体对于参考相机的深度。由于MiDaS提供了非量测的深度测量,我们通过估计参考深度图和估计深度图之间的全局尺度和偏移,在编辑的参考视图的估计深度和场景NeRF渲染的参考深度之间进行额外的深度对齐。

    具体来说,为了使目标区域周围的对齐更加准确,文章使用加权最小二乘估计来估计对齐参数,其中测量值根据其与目标边界框中心的距离进行反向加权。在对齐之后,我们使用物体边界框中的中心像素深度d作为视锥体中物体中心的粗略估计,这将在下一步中进一步优化。

    (3)3D的物体的放置

    • 尺度和距离的优化:使用估计的深度d作为物体中心与参考相机的距离,有助于解决目标三维物体的尺度-深度模糊问题,但不够精确,无法与原始编辑进行紧密匹配。另外,例如是SyncDreamer的一些单视角重建方法,从固定的相机距离和焦距生成的多视图图像。一般来说,由于这些参数和相机的参考参数不一致,一旦放置在估计的距离上,重建的场景中的物体在参考视图中就会呈现出不同的尺度。因此本文提出了额外的优化步骤:
      • 物体必须驻留在估计的深度处
      • 参考相机中物体的渲染视图应该在尺度和外观上与初始编辑相匹配。
    • 旋转与平移:在从参考相机获得物体的尺度和距离后,该研究通过估计物体相对于相机坐标系的3D旋转和平移来估计物体在场景中的位置。物体在场景坐标系中的原点为参考相机中心沿射线经过包围盒中心在期望距离上的点。为了获得3D旋转,文章将物体坐标系的x轴对准从物体原点指向参考相机中心的向量。
    • 场景和物体融合:一旦3D物体在场景中的位置和方向已知,我们将物体和场景的NeRF表示进行融合,从而能够渲染包含目标物体的场景的多视图图像。给定一个视点,我们将光线变换到场景和物体的坐标系中。每个NeRF表示应用于相应的变换射线,以预测物体和场景在每个3D位置的颜色和密度。为了使用两个NeRF的预测来渲染视点,该论文参考了论文(Generative radiance fields for 3d-aware image synthesis.)。并对其中的两个公式进行了修改。

    (4)更新NERF

    为了让场景和对象更加精细的融合,文章选取了和Instruct-NeRF中提出的迭代方案。

    首先,从融合的不同视角下渲染一组图像。然后利用二维的扩散模型对采样后的图像进行进一步的细化,并且依次加入到NeRF模型的微调中。这其中与Instruct-NeRF方法不同的是我们可以获得在不同图像中对象的掩码,以便于将插入对象限制在区域中。另外,与Instruct-NeRF不同的是,InseRF的位置是已知的。


    3、实验结果

    实验结果表明,InseRF在NeRF中插入一致的物体方面表现优越,相较于现有方法具有更高的性能。研究人员在MipNeRF-360和Instruct-NeRF2NeRF数据集上对室内外场景进行了测试,清晰展示了InseRF在局部修改场景和插入3D一致物体方面的卓越能力。

    尽管InseRF的性能受到底层生成式2D和3D模型能力的限制,但研究团队表示,未来对这些模型的改进将有望轻松应用于InseRF技术。团队计划在未来测试其他方法,包括改进阴影效果和提升生成物体及其环境质量的方法,以进一步推动该技术的发展。

    InseRF技术的提出为生成式AI领域带来了新的可能性,为在3D场景中插入一致物体提供了一种创新的方法。随着技术的不断发展和改进,InseRF有望成为未来生成式AI领域的重要技术之一。

    4、产品特色

    • 文本到3D转换:用户仅需提供文本提示和2D边界框,InseRF就能生成新的3D对象。
    • 2D到3D的无缝转换:将2D编辑直接转换为3D对象模型,实现高效的场景编辑。
    • 场景融合:InseRF能够在场景中自然地放置和融合生成的3D对象,确保与现有环境的一致性。
    • 细化选项:用户可以选择进行细化编辑,以进一步改善对象在场景中的外观和融合效果。

    5、应用领域

    • 3D室内设计:在室内场景中插入新的家具和装饰,从而实现更直观的设计效果。
    • 城市规划:在城市模型中添加新的建筑物或道具,帮助规划者更好地理解和展示未来的城市面貌。
    • 自然景观设计:在户外风景中添加新的植物或景观元素,为景观设计师提供更多创意可能性。

    项目网址入口:https://top.aibase.com/tool/inserf

    论文网址:https://arxiv.org/pdf/2401.05335.pdf

    相关文章

      网友评论

          本文标题:InseRF在3D场景中插入生成对象

          本文链接:https://www.haomeiwen.com/subject/dnnyodtx.html