开发者说｜Uni3R：探索统一3D表征，0.16秒实现3D重建、渲染与理解

2026/05/13

产品突破

• 项目主页：

https://horizonrobotics.github.io/robot_lab/uni3R

• 文章链接：

https://arxiv.org/pdf/2508.03643

• GitHub代码：

https://github.com/HorizonRobotics/Uni3R

概述

在现实场景中，通常只能获取来自多个视角的RGB图像，而缺乏相机位姿、深度或点云等辅助信息。现有三维重建方法普遍存在两方面局限：一是将几何重建与语义理解解耦建模，需分别训练与优化，导致系统复杂且效率受限；二是高度依赖位姿与深度监督，才能稳定恢复几何结构。针对这些问题，Uni3R提出统一架构，将整体流程转化为可泛化的前馈推理过程，无需预先配准的相机信息。

仅需少量普通照片，模型可自动重建完整的三维场景并识别其中的物体。这一目标长期以来是计算机视觉的重要方向。然而，传统方法往往依赖耗时的逐场景优化，或将三维重建、语义理解等任务分离建模，难以同时兼顾效率与泛化能力。

我们的核心思考是，以3D Gaussian Splatting作为高效统一的三维表征基础，在同一几何表示上整合不同任务，实现几何、语义与渲染的一体化建模。基于此，我们提出Uni3R，一个面向三维重建与语义理解的统一框架。该方法能够从未经对齐的多视图图像中直接恢复完整场景，并同步建模语义信息。通过跨视角融合机制，Uni3R构建基于3D高斯的统一表示，在同一表征空间中联合编码几何结构与语义特征。

依托统一表征空间，Uni3R仅需单次前向传播（约0.15秒），即可并发完成高保真新视角合成、开放词汇三维语义分割与深度预测三项核心任务，并在多个基准数据集上达到当前最先进水平。进一步实验表明，统一多任务表征不仅显著减少了底层计算冗余，还在几何重建、视角合成与语义理解之间形成稳定的协同增益。右侧雷达图展示了Uni3R与多种现有方法在不同数据集与任务上的性能对比结果，表明该方法在各项指标上均表现出一致且领先的性能。

总体框架

Uni3R以多视角RGB图像为输入，首先通过DINOv2编码器提取高维特征，并利用跨视角注意力机制 (Cross-View Transformer) 融合多视图信息，构建全局一致的场景表征。模型在单次前向过程中直接预测三维高斯原语 (3D Gaussian Splatting) ，该统一表示同时编码场景的几何结构、外观信息与语义特征。

为提升训练稳定性，Uni3R引入面向RGB-only监督的几何约束损失 (Geometry Loss) ，为三维表示提供额外的结构先验。基于高斯泼溅渲染，模型能够生成新视角图像、深度图及语义结果，并通过联合损失进行端到端优化，从而实现三维场景的统一重建与语义理解。

新视角语义分割

Uni3R在多项三维视觉任务中取得了当前最先进的性能，并能够生成结构一致、语义清晰的三维场景理解结果。与传统方法不同，许多模型（例如 LSeg）只能在二维图像上进行语义分割，而Uni3R则为每一个3D高斯表示赋予语义特征，从而在三维空间中构建出一个统一且稳定的语义表示。这一设计将几何结构、语义信息和渲染过程有机结合，使模型在三维空间中的语义理解更加准确、一致。