仅用三张图片实现任意场景三维重建：ReconFusion

论文题目：

ReconFusion: 3D Reconstruction with Diffusion Priors

论文作者：

Rundi Wu, Ben Mildenhall, Philipp Henzler, Keunhong Park, Ruiqi Gao, Daniel Watson, Pratul P. Srinivasan, Dor Verbin, Jonathan T. Barron, Ben Poole, Aleksander Holynski

项目地址：https://reconfusion.github.io/

编译：lean_loves_lulu

基于NeRF技术的三维重建是目前计算机视觉和图形渲染领域的研究热点，但是每次重建不仅需要从零开始，甚至需要上百张图片作为输入才能完成高保真度的三维重建任务。ReconFusion通过在三维重建过程中加入扩散模型作为先验来减少输入图片数量，利用少量视图信息即可完成高质量场景渲染与重建，为三维重建领域提供了新的研究方向。

▲图1｜ReconFusion与Zip使用少量视图进行三维重建对比 ©️【深蓝AI】编译

基于神经辐射场（NeRF）的三维重建很擅长于不同视角下场景的高质量渲染，然而对于复杂场景的高质量重建通常需要数十张甚至上百张输入图像，这无疑是一个极为耗时的过程。本文提出的ReconFusion仅用少量图片即可重建真实场景。具体方法为：利用扩散先验进行新视图的合成，并在人工合成和多视图数据集上进行训练，并将扩散先验信息融合进NeRF的三维重建过程中。

本文提出的方法在多种真实场景数据集上与基于NeRF的重建方法进行了详细的对比实验，实验结果表明：ReconFusion不仅能在欠约束区域内还原真实场景的纹理和几何形状，同时还能保留观察区域内的场景外观，证明了本文提出的方法在少量图像的三维重建方面比NeRF具有更为优秀的性能表现。

3d4b3cae5f231349ac10416382319f38.png" width="1080" />

▲图2｜ReconFusion模型整体框架（来源：该论文）©️【深蓝AI】编译

■3.1 Diffusion Model for Novel View Synthesis（用于新视图合成的扩散模型）

扩散模型基于LDMs（Latent Diffusion Models)实现对高分辨率图像的建模。LDMs使用预先训练好的自编码器VAE（Variational auto-encoder）将输入图像编码为潜在空间表示（latent representation），这里可以理解为对输入数据进行压缩，在较低维度上对数据进行表示。扩散模型具体实现为time-conditional UNet，在该扩散模型的基础上引入了条件机制，与Zero-1-to-3类似，将图像位姿作为UNet框架中额外的条件限制，使其能通过不同位姿的图像完成新视图合成任务。

■3.2 3D Reconstruction with Diffusion Priors（基于扩散先验的三维重建）

经过训练后的扩散模型能通过新的相机位姿生成正确的图像，但在使用不同的相机位姿或随机种子时，生成的图像往往不一致。最先进的NeRF方法能生成3D表示一致的三维模型，但通常新视图伴随着”漂浮“现象或出现无法辨认的几何形状。基于上述分析，为了实现利用少量视图作为输入完成三维重建任务，本文使用Zip-NeRF作为三维重建模块，并将扩散模型作为先验加入Zip-NeRF用于新视图合成。

实验分为三部分：首先，将ReconFusion在五个“真实世界”数据集上进行评估，用于验证其在少量视图条件下进行三维重建的性能及可泛化性（对比实验）；然后针对于扩散模型及三维重建过程进行消融实验（消融实验）；最后在不同的场景捕获条件下验证ReconFusion在三维重建上的最终性能（扩展实验）。

■4.1 对比实验

▲图3｜ReconFusion在五种真实场景数据集上的对比实验结果（来源：该论文）©️【深蓝AI】编译

▲图4｜ReconFusion在五种真实世界数据集上的对比实验结果，即定量分析（来源：该论文）©️【深蓝AI】编译

■4.2 消融实验

对扩散模型的消融实验体现在两个方面：预训练扩散模型权重（PT）和条件信号。分别通过从头开始训练扩散模型和替换PixelNeRF模块（替换为类似于ZeroNVS的模块）进行实现。

首先在扩散模型中选取两个样本，在三种不同条件（限制pose条件下、无预训练权重、完整模型）下基于NeRF进行三维重建，并对渲染结果进行对比分析。

3d371b569257e5.png" width="637" />

■4.3 扩展实验

为了进一步研究扩散先验模型的有效性和鲁棒性，将少量视图的条件扩展为不同数量的视图，将本文提出的模型与Zip-NeRF进行对比实验。

3de.png" width="1080" />

ReconFusion将NeRF和扩散模型进行了有效结合。首先，使用了基于优化的三维重建模块NeRF，保证了算法底层3D表示的多视图一致性。同时，采用了基于扩散模型的新视图合成模块，解决了在三维重建过程中欠约束问题的影响。目前此项研究的局限性也是显而易见的：扩散模型计算成本较高，会明显降低重建速度；模型在三维绘制能力上稍有不足；调整重建与样本损失之间的平衡也较为困难。尽管现阶段的研究在存在一些问题，本文提出的模型已在各类场景中初见成效，视图计算量显著降低，未来工作可以在稀疏重建方向针对于本文模型作进一步的优化与改进。

仅用三张图片实现任意场景三维重建：ReconFusion

相关文章

基于多媒体的深度学习 Midreport自我总结分析

windows 创建文件夹共享bat

STM32407用汇顶的GT911触摸芯片调试实盘

JWT相关问题及答案（2024）

致大家的一封信2024 — 对称性原理

解决C# Visual Studio 2022 Installer Projects打包报错Unable to finish updating...

知识分享:一文读懂AIGC与大模型

【数据库原理】（29）数据库设计-需求分析阶段