仅用三张图片实现任意场景三维重建:ReconFusion

news/2024/7/24 5:27:52 标签: 深度学习, 3d, 人工智能

论文题目:

ReconFusion: 3D Reconstruction with Diffusion Priors

论文作者:

Rundi Wu, Ben Mildenhall, Philipp Henzler, Keunhong Park, Ruiqi Gao, Daniel Watson, Pratul P. Srinivasan, Dor Verbin, Jonathan T. Barron, Ben Poole, Aleksander Holynski

项目地址:https://reconfusion.github.io/

编译:lean_loves_lulu

图片

基于NeRF技术的三维重建是目前计算机视觉和图形渲染领域的研究热点,但是每次重建不仅需要从零开始,甚至需要上百张图片作为输入才能完成高保真度的三维重建任务。ReconFusion通过在三维重建过程中加入扩散模型作为先验来减少输入图片数量,利用少量视图信息即可完成高质量场景渲染与重建,为三维重建领域提供了新的研究方向。

图片

▲图1|ReconFusion与Zip使用少量视图进行三维重建对比 ©️【深蓝AI】编译

图片

基于神经辐射场(NeRF)的三维重建很擅长于不同视角下场景的高质量渲染,然而对于复杂场景的高质量重建通常需要数十张甚至上百张输入图像,这无疑是一个极为耗时的过程。本文提出的ReconFusion仅用少量图片即可重建真实场景。具体方法为:利用扩散先验进行新视图的合成,并在人工合成和多视图数据集上进行训练,并将扩散先验信息融合进NeRF的三维重建过程中。

本文提出的方法在多种真实场景数据集上与基于NeRF的重建方法进行了详细的对比实验,实验结果表明:ReconFusion不仅能在欠约束区域内还原真实场景的纹理和几何形状,同时还能保留观察区域内的场景外观,证明了本文提出的方法在少量图像的三维重建方面比NeRF具有更为优秀的性能表现。

图片

图片3d4b3cae5f231349ac10416382319f38.png" width="1080" />

▲图2|ReconFusion模型整体框架(来源:该论文)©️【深蓝AI】编译

3.1 Diffusion Model for Novel View Synthesis(用于新视图合成的扩散模型)

扩散模型基于LDMs(Latent Diffusion Models)实现对高分辨率图像的建模。LDMs使用预先训练好的自编码器VAE(Variational auto-encoder)将输入图像编码为潜在空间表示(latent representation),这里可以理解为对输入数据进行压缩,在较低维度上对数据进行表示。扩散模型具体实现为time-conditional UNet,在该扩散模型的基础上引入了条件机制,与Zero-1-to-3类似,将图像位姿作为UNet框架中额外的条件限制,使其能通过不同位姿的图像完成新视图合成任务。

■3.2 3D Reconstruction with Diffusion Priors(基于扩散先验的三维重建)

经过训练后的扩散模型能通过新的相机位姿生成正确的图像,但在使用不同的相机位姿或随机种子时,生成的图像往往不一致。最先进的NeRF方法能生成3D表示一致的三维模型,但通常新视图伴随着”漂浮“现象或出现无法辨认的几何形状。基于上述分析,为了实现利用少量视图作为输入完成三维重建任务,本文使用Zip-NeRF作为三维重建模块,并将扩散模型作为先验加入Zip-NeRF用于新视图合成。

图片

实验分为三部分:首先,将ReconFusion在五个“真实世界”数据集上进行评估,用于验证其在少量视图条件下进行三维重建的性能及可泛化性(对比实验);然后针对于扩散模型及三维重建过程进行消融实验(消融实验);最后在不同的场景捕获条件下验证ReconFusion在三维重建上的最终性能(扩展实验)

■4.1 对比实验

图片

▲图3|ReconFusion在五种真实场景数据集上的对比实验结果(来源:该论文)©️【深蓝AI】编译

图片

▲图4|ReconFusion在五种真实世界数据集上的对比实验结果,即定量分析(来源:该论文)©️【深蓝AI】编译

■4.2 消融实验

对扩散模型的消融实验体现在两个方面:预训练扩散模型权重(PT)和条件信号。分别通过从头开始训练扩散模型和替换PixelNeRF模块(替换为类似于ZeroNVS的模块)进行实现。

首先在扩散模型中选取两个样本,在三种不同条件(限制pose条件下、无预训练权重、完整模型)下基于NeRF进行三维重建,并对渲染结果进行对比分析。

图片3d371b569257e5.png" width="637" />

▲图5|扩散模型在三视图三维重建上的消融实验(来源:该论文)©️【深蓝AI】编译

图片

▲图6|消融实验定量分析结果(来源 :该论文)©️【深蓝AI】编译

■4.3 扩展实验

为了进一步研究扩散先验模型的有效性和鲁棒性,将少量视图的条件扩展为不同数量的视图,将本文提出的模型与Zip-NeRF进行对比实验。

图片3de.png" width="1080" />

▲图7|三维重建扩散损失对比(来源:该论文)©️【深蓝AI】编译

图片

▲图8|有无扩散先验模块对三维重建性能的影响(来源:该论文)©️【深蓝AI】编译

图片

ReconFusion将NeRF和扩散模型进行了有效结合。首先,使用了基于优化的三维重建模块NeRF,保证了算法底层3D表示的多视图一致性。同时,采用了基于扩散模型的新视图合成模块,解决了在三维重建过程中欠约束问题的影响。目前此项研究的局限性也是显而易见的:扩散模型计算成本较高,会明显降低重建速度;模型在三维绘制能力上稍有不足;调整重建与样本损失之间的平衡也较为困难。尽管现阶段的研究在存在一些问题,本文提出的模型已在各类场景中初见成效,视图计算量显著降低,未来工作可以在稀疏重建方向针对于本文模型作进一步的优化与改进。


http://www.niftyadmin.cn/n/5328798.html

相关文章

基于多媒体的深度学习 Midreport自我总结分析

Resistor Ohm Value Estimation Challenge 需要将误差降低到1%以下 1、调整模型架构:增加模型的复杂性,例如增加卷积层或全连接层的数量,增加神经元数量等 # 在 ResistorEstimator 类的 CNN 方法中进行修改 def CNN(self, type):input In…

windows 创建文件夹共享bat

要在Windows上创建一个共享文件夹,可以使用批处理(.bat)文件。以下是一个示例的批处理文件,用于创建共享文件夹: echo off set folder"C:\SharedFolder" net share "SharedFolder"%folder% /GRAN…

STM32407用汇顶的GT911触摸芯片调试实盘

这个配置很关键 代码 #include "stm32f4xx.h" #include "GT9147.h" #include "Touch.h" #include "C_Touch_I2C.h" #include "usart.h" #include "delay.h" #include "LCD.h" #incl…

JWT相关问题及答案(2024)

1、什么是 JWT,它通常用于什么目的? JWT(JSON Web Token)是一种开放标准(RFC 7519),用于在不同实体之间安全地传输信息。它由三个部分组成:头部(Header)、载…

致大家的一封信2024 — 对称性原理

紫光集团董事长李滨先生,作为融信产业联盟理事长每年都会为联盟成员发布一封新年信,与各联盟伙伴分享新一年的思考与感悟。今年,李滨先生围绕“对称性原理”进行了2024年的新年分享,并向大家带来新一年的美好祝福。 原文如下&…

解决C# Visual Studio 2022 Installer Projects打包报错Unable to finish updating...

用C# Microsoft Visual Studio 2022 Installer Projects 打包失败,报错如下: ERROR: 生成引导程序时出错: Unable to finish updating resource for E:\CODE\Debug\setup.exe with error 8007006E ERROR: General failure building bootstrapper ERRO…

知识分享:一文读懂AIGC与大模型

什么是大模型? 关于大模型,有学者称之为“大规模预训练模型”(large pretrained language model),也有学者进一步提出”基础模型”(Foundation Models)的概念。 “小模型”:针对特定应用场景需求进行训练&a…

【数据库原理】(29)数据库设计-需求分析阶段

需求分析就是调查、收集、分析、最后定义用户对数据库的各种要求。它是整个数据库设计的基础和出发点,其结果将直接影响后面各步的设计,甚至决定着最终设计的数据库的好坏与成败。为此,首先必须知道需求分析的任务是什么,以及采用什么样的方法进行需求分析。 一.需求分析的任务…