“补全”被遮挡的世界:IGFuse利用场景变化照片重建可交互3D空间
2025/09/24

概述
可交互三维场景重建是推动计算机视觉与机器人智能发展的关键。然而,真实世界的频繁遮挡使单次扫描无法完整捕捉场景信息,也因此限制了后续的全面交互。传统方法往往依赖复杂流程或逐物体扫描,难以兼顾效率与完整性。为此,我们提出IGFuse,一个基于多次观测融合的可交互三维高斯场景重建框架。它能够利用多次扫描不同物体布局下的场景揭示被遮挡区域,并通过分割感知的高斯场和一致性约束实现高保真重建。用户无需繁琐步骤,即可获得完整、可交互的三维场景。目前,IGFuse网站已上线,代码也将于近期开源,欢迎大家关注与体验。
• 项目主页:
https://whhu7.github.io/IGFuse/
• 文章链接:
https://arxiv.org/pdf/2508.13153
• GitHub代码:
https://github.com/whhu7/IGFuse-code

输入(左):同一个场景的多次扫描 (Multi-Scans) ,每次扫描中的物体布局都不同。
融合与分解(中):IGFuse通过一个多状态联合优化过程,将所有扫描的信息融合成一个统一的、一致的场景表示,并将其分解为独立的可动物体 (Optimized Objects) 和完整背景 (Optimized Background) 。
交互式生成(右):最终,用户可以随意地重新排列 (Object Rearrangement) 这些物体,生成全新的、高保真的场景状态。
背景方法

在构建可交互的三维高斯场景时,不同范式有着明显差异:
(a) 传统单次扫描方法:依赖繁琐的多阶段后处理与修复操作,但往往会引入累积误差与伪影;
(b) 基于物体的重建方法:需要对场景中每个物体进行密集多视角扫描,再进行显式组合,过程复杂且成本高;
(c) 我们提出的IGFuse:则通过端到端的多次观测融合,在跨状态监督下联合优化多状态高斯场,不仅能有效补偿不同扫描视角下的遮挡,还能实现高质量的可交互三维高斯重建。
总体框架
对于N个扫描场景,我们每次从中选取两个场景扫描i和j,进行一次对齐优化。
双向对齐
IGFuse通过物体级变换矩阵来实现高斯状态迁移
。随后,利用对齐损失
将迁移后的高斯
的渲染图像与扫描j下的真实观测对齐,反之亦然。
伪状态引导对齐
双向对齐虽能有效约束,但仅在两个已知状态间提供监督,难以保证模型泛化到任意的、未见的中间状态。为此,IGFuse引入一个虚拟的“伪状态”,相当于一个公共的中转空间,把两个状态都分别变换到这一共享伪状态,再加上额外约束,确保渲染结果完全一致,迫使模型学习更本质、更一致的场景表示,并提升对任意新状态的泛化能力。
协同互斥剪枝
为了消除因分割不准或状态变换不精确而产生的“伪影”和悬浮高斯,IGFuse设计了一种协同剪枝机制。当将变换到
的状态时,对于中的每一个高斯,如果它在中
找不到一个足够近的“对应点”,那么它就被认为是移动操作遗留下来的“浮动点”,需要被剪枝。这个剪枝过程是双向的,能够共同提升两个高斯场景的几何纯净度。
通过这种“成对对齐+公共空间”的方式,N个扫描场景之间的差异能被逐步消除,从而得到完整、可靠的三维场景重建。

新状态合成结果
在新状态合成任务中,我们的方法取得了最优表现。相比之下,基于分割的算法如Gaussian Grouping容易在物体边界处产生明显的瑕疵,而DecoupledGaussian采用分割加修补的思路,但在复杂场景中修补区域与真实背景之间依然会出现不协调感。


在定量实验上,我们在训练场景扫描之外拍摄了物体随机排布的一个测试场景扫描,用作衡量高斯场在新状态合成的真实性。在虚拟数据(上)和真实数据(下)的新状态任务上,我们跟Ground Truth相比的PSNR和SSIM都显著高于对比算法。


前背景信息融合
我们的方法融合了不同场景扫描下的前景信息,从而在小车翻滚的不同状态下实现更加逼真的模拟效果。

仅考虑背景时,我们的方法能够融合多次扫描的信息,从而重建出完整的背景。

分割与深度结果
与基线方法Gaussian Grouping在新状态下的表现相比,我们的方法能够生成更加干净的分割结果。Gaussian Grouping在二维分割中往往会在物体边界处产生空洞或多余区域;在深度层面,其基于特征的分割无法覆盖所有三维点,导致物体移动后遗留大量残余点,并在物体移出的位置留下深度空洞。


总结与展望
IGFuse通过融合多次场景扫描信息,有效提升了新状态合成的质量,打通了从场景重建到多状态真实模拟的完整流程。双向对齐设计与伪状态监督相结合,有效解决了遮挡处理和边界分割中的难题,进一步保证了新状态合成的准确性与完整性。未来,该方法将作为一种融合式重建的范式持续演进,重点拓展到更加复杂和多样的场景中,特别是面向长序列观测下的高质量融合重建。这不仅为真实环境中的持续感知与状态合成提供了坚实基础,也为具身智能体在长期交互和复杂任务中的应用开辟了新的可能。
分享文章
欢迎订阅地平线相关资讯,您可以随时取消订阅。
感谢您的订阅, 我们会第一时间推送地平线最新活动与资讯到您邮箱

