开发者说|3D-Fixer:单图3D场景生成的原位补全新范式

2026/05/15

开发者说.jpg


• 项目主页:

https://zx-yin.github.io/3dfixer

• 文章链接:

https://arxiv.org/pdf/2604.04406

• GitHub代码

https://github.com/HorizonRobotics/3D-Fixer



现有挑战

基于单张图像生成3D场景,是构建物理世界数字孪生环境的关键技术问题。现有方法在泛化能力与生成效率之间存在显著权衡:端到端方法受限于训练数据多样性不足,导致难以泛化;而分而治之 (divide-and-conquer) 方法虽通过“单体生成+位姿对齐”提升了泛化能力,但计算开销大,且极易引入对齐失败与误差累积问题。


与此同时,场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集(如 3D-FRONT),规模有限且多样性不足。大规模真实数据(如 ScanNet)虽具丰富多样性,却缺乏可靠的物体级3D几何标注;自动构建数据(如 MetaScenes)在一定程度上弥补了标注缺失,但仍存在几何错位与形状不一致等问题,难以作为高精度训练数据。因此,构建兼具大规模、多样性与高精度标注的数据体系,是突破该方向性能上限的关键路径。



方法核心:原位补全新范式

3D-Fixer摒弃传统显式位姿对齐流程 ,利用3D基础模型从RGB图像中估计观测几何并构建空间锚点,直接在原始三维空间中完成3D生成与几何补全。该方法在保持全局布局一致性的同时,实现空间定位精度与物体完整性的协同优化,有效避免了迭代对齐带来的误差累积。


1.jpg


基于这一思考,本文采用由粗到细 (Coarse-to-Fine) 的分阶段设计,将几何范围估计与细节生成有效解耦。具体而言,3D-Fixer以几何估计得到的点云为条件,结合实例分割模型,将场景中的不同实例划分至独立的mask中;随后,在各实例点云基础上,首先通过Coarse Structure Completer预测物体完整几何的粗略范围,再在该约束空间内利用Fine Shape Refiner进行细粒度几何重建,最终通过Occlusion-Aware 3D Texturer为生成结果补充纹理并处理遮挡区域。


2.jpg


在模型结构上,本文采用双分支设计:一条分支保持预训练物体生成先验不变,以最大程度保留其生成能力;另一条分支显式建模场景上下文信息,用于对生成过程进行条件调控,从而实现面向复杂场景的原位补全。



数据引擎:大规模场景数据集

ARSG-110K

场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集(如 3D-FRONT)规模有限且多样性不足;大规模真实数据(如 ScanNet)缺乏可靠的物体级3D几何标注;自动构建数据(如 MetaScenes)则存在几何错位等问题。


针对此数据缺口,我们构建并开源了ARSG-110K数据集:


数据规模:收集180K+高质量物体资产、1K+HDR贴图及5K+材质,自动构建110K+个多样化场景(单场景5-20个实例),产出超300万张图像。


标注精度:基于Blender Cycles渲染引擎实现物理一致的光照与材质建模,提供精确的实例级掩码、物体几何真值及完整布局信息。


3.jpg



实验结果

3D-Fixer仅在自主构建的ARSG-110K数据集上进行训练,在多项评测指标上大幅超越现有方法:


高效推理效率:在MIDI测试集上,单场景生成耗时仅为30s,对比Gen3DSR(9分钟)和REPARO(4分钟),效率有数量级提升。


最佳重建精度:在MIDI测试集中,交并比 (IoU) 达到0.492,倒角距离 (CD) 等指标均处于最优水平。


良好的泛化能力:在ScanNet子集、自建测试集以及室外等复杂遮挡场景中,3D-Fixer均展现了优异的几何完整性、布局恢复能力与结构一致性。


4.jpg


可视化结果进一步表明,该方法在结构一致性与生成质量上均优于现有方案。


1.gif


2.gif


3.gif



总结与展望

3D-Fixer提出的“原位补全”范式系统性重构了单图3D场景生成流程,有效实现了泛化能力与生成效率的平衡。该框架结合前馈式架构与ARSG-110K大规模数据集,为构建高保真、强泛化的三维数字孪生环境提供了可靠方案。项目代码与数据现已全面开源,旨在为3D视觉生成、机器人感知及具身智能仿真等领域提供底层技术支撑。

分享文章

欢迎订阅地平线相关资讯,您可以随时取消订阅。

立即订阅

同意隐私政策,允许向我推送地平线的新闻、资讯及更多内容。

提交成功!

感谢您的订阅, 我们会第一时间推送地平线最新活动与资讯到您邮箱

6-1.jpg 618db6f9-665a-4ec5-a04a-bb65a3df9030.jpg