机器人算法新突破,地平线5篇论文被学术顶会NeurIPS 2025、AAAI 2026录用

2025/11/28

近日,两大顶级学术会议录用结果相继揭晓,地平线凭借在机器人算法领域的深度钻研,共有5篇论文从全球数万份投稿中脱颖而出,分别入选NeurIPS 2025与AAAI 2026。


作为人工智能领域公认的CCF A类顶会,NeurIPS与AAAI是全球算法创新的“风向标”。NeurIPS侧重神经计算与机器人自主学习,AAAI聚焦人工智能全领域突破,二者录用率常年维持在25%以下,AAAI 2026最终录用率仅17.6%,竞争强度空前。此次地平线5篇论文入选,是其技术实力的又一力证。其中,聚焦多模态融合技术的IGFuse论文更以卓越创新性斩获AAAI 2026 Oral资格。


地平线此次入选的论文,均围绕机器人在虚拟数据生成、导航和通用操作的核心难题展开,覆盖可交互重建、3D生成、具身思维链和人类数据预训练等领域的前瞻技术,为推动具身智能的发展和应用做出贡献。



IGFuse

“补全”被遮挡的世界,重建可交互3D空间

(入选AAAI 2026 Oral)


• 论文名称:

IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion

• 论文链接:

https://arxiv.org/pdf/2508.13153

• 项目主页:

https://whhu7.github.io/IGFuse/


在计算机视觉和机器人领域,如何完整、真实地重建一个可交互的三维场景,一直是一个难题。传统方法往往依赖复杂的多阶段流程,比如先做分割,再进行背景补全或修复,或者需要对每个物体进行密集扫描。这些方式不仅成本高、容易出错,而且很难扩展到大规模的应用场景。


我们提出的IGFuse提供了一种新的思路:通过多次场景扫描的融合来重建三维高斯场景。在不同扫描中,物体布局的自然移动能够“揭示”那些在单次扫描里被遮挡的区域,从而帮助恢复完整的场景。为了保证重建的质量,我们构建了分割感知的高斯场,并在不同扫描之间保持光度和语义上的一致。同时,我们设计了一种伪中间场景状态来解决多次扫描之间的对齐问题,并通过协同剪枝策略不断优化几何结构。


1-1.jpg


得益于这些设计,IGFuse可以在不依赖密集观测和繁琐流程的情况下,实现高保真的渲染和物体级别的场景交互。大量实验验证了它在不同场景下的泛化能力,也展示了在真实三维重建和从真实到仿真的迁移中强大的应用潜力。


未来,该方法将作为一种融合式重建的范式持续演进,重点拓展到更加复杂和多样的场景中,特别是面向长序列观测下的高质量融合重建。这不仅为真实环境中的持续感知与状态合成提供了坚实基础,也为具身智能体在长期交互和复杂任务中的应用开辟了新的可能。


更多可阅读:《“补全”被遮挡的世界:IGFuse利用场景变化照片重建可交互3D空间



DIPO

双状态图像可控生成活动关节3D资产

(入选NeurIPS 2025)


• 论文题目:

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data

• 论文链接:

https://arxiv.org/abs/2505.20460

• 项目主页:

https://rq-wu.github.io/projects/DIPO/


活动关节3D资产是具身智能仿真交互场景的核心组成部分,然而受限于其运动学关系的复杂性,高质量可用资产极为稀缺。DIPO旨在借助3D生成技术,以低成本、高可控的方式获取多样化活动关节3D资产,破解这一行业痛点。


现有方法普遍依赖单图像输入,难以有效捕捉物体部件间的运动关联,导致生成结果在结构合理性与运动一致性上存在明显短板,无法满足复杂场景的应用需求。为此,我们提出的DIPO方案开辟新的解决路径:通过输入物体“静止状态图”与“关节活动状态图”这一对双态图像,编码关键运动信息。设计双图像扩散模型,精准捕捉图像对间的关联特征,进而生成可靠的部件布局与关节参数。同时引入基于思维链 (CoT) 的图推理器,推断部件间的铰链关系,大幅提升结构理解的准确性。为增强模型对复杂物体的泛化能力,我们构建了自动化数据集增广流程,并发布了大规模数据集PM-X,为模型训练提供充足支撑。


12.jpg


实验表明,DIPO在活动关节3D资产生成任务中显著超越现有基准模型,仅需两张图像即可实现高保真、高可控的关节式3D物体生成。该方法为具身智能仿真领域提供了高效的铰链3D物体生成解决方案,尤其适用于需精准控制部件运动的核心场景。


更多可阅读:《DIPO:应用于具身智能仿真的3D铰链物体生成新范式



AuxThink

视觉语言导航任务的推理范式

(入选NeurIPS 2025)


• 论文题目:

Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation 

• 论文链接:

https://arxiv.org/abs/2505.11886

• 项目主页:

https://horizonrobotics.github.io/robot_lab/aux-think/index.html


视觉语言导航 (VLN) 任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在导航策略学习中的作用,并首次揭示了VLN中的“推理崩塌”现象。研究发现:无论是行动前推理 (Pre-Think) ,还是行动后推理 (Post-Think) ,一旦在测试阶段显式生成推理链,反而更容易让机器人迷失方向。


Aux-Think提出一种更实用的路径:在训练阶段引入推理任务作为辅助监督,引导模型习得更清晰的决策逻辑;而在测试阶段,则彻底省去推理生成,直接进行动作预测。把推理用在该用的地方,模型在任务中反而更快、更准、更省。Aux-Think不仅有效避免了测试阶段的推理幻觉,也为“推理应在何时、如何使用”提供了清晰答案,进一步拓展了数据高效导航模型的能力边界。


123.jpg


Aux-Think为解决测试阶段推理引发的导航问题提供了新的思路。通过在训练阶段引入推理指导,在测试阶段去除推理负担,Aux-Think能够让机器人更加专注于任务执行,从而提高其导航稳定性和准确性。实验表明,Aux-Think在数据效率与导航表现方面优于当前领先方法。这一突破性进展将为机器人在实际应用中的表现奠定更为坚实的基础,也为具身推理策略提供了重要启示。


更多可阅读:《Aux-Think:为什么测试时推理反而让机器人「误入歧途」?



MonoDream

视觉语言导航任务的想象力机制

(入选AAAI 2026)


• 论文题目:

MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming

• 论文链接:

https://arxiv.org/abs/2508.02549

• 项目主页:

https://horizonrobotics.github.io/robot_lab/monodream/


传统VLN方法普遍依赖全景RGB-D传感器,以获得全方位视野和几何线索,但这种方案成本高、功耗大、系统复杂。相比之下,单目相机虽然普及易部署,却长期被认为“能力不足”。MonoDream提出了另一条路径——不靠增强传感器,而是激发大模型中潜藏的“时空想象力”。这一思路与认知科学高度契合:预测编码理论与神经影像研究都指出,人类能凭局部视觉主动重建不可见空间,并用于规划行动。


MonoDream通过统一导航表征 (UNR) 与隐式全景想象 (Latent Panoramic Dreaming,LPD) ,在训练过程中逼迫模型仅凭单目画面推测出完整的RGB-D潜特征,形成全景结构理解与未来路径预测。关键在于,这种“想象”并不是额外生成模块,而是直接融入导航决策逻辑,成为模型内部的结构认知。进入部署阶段后,MonoDream无需全景、无需深度、无需显式重建——仅用一枚普通相机即可决策。


1-3.jpg

实验表明,MonoDream在R2R-CE与RxR-CE中以单目取得SOTA表现,显著缩小与全景方案的差距,证明单目瓶颈不在传感器,而在想象力的缺失。MonoDream重新定义了单目能力边界,并指出一种未来路径:具身智能将不一定需要依赖传感器增强,而通过内在世界模型与想象推演也能实现自主决策与探索。


更多可阅读:《MonoDream:机器人仅凭单目相机,也能通晓全景、洞悉深度和预见未来



H-RDT

基于人类操作数据的跨本体机器人学习

(入选AAAI 2026)


• 论文题目:H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation

• 论文链接:

https://arxiv.org/abs/2507.23523

• 项目主页:

https://embodiedfoundation.github.io/hrdt


机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR/AR头显和3D视觉技术的显著进步,当前只需极低成本即可采集大量带有精确人手关节标注的第一人称人类操作视频。


为此,我们提出基于大规模人类操作数据预训练的VLA模型H-RDT (Human to Robotics Diffusion Transformer) 。H-RDT是一个具有20亿参数的扩散Transformer,使用流匹配来建模双臂机器人的复杂动作分布。H-RDT采用两阶段训练范式:1)在大规模第一人称人类数据上预训练;2)通过模块化动作编解码器在机器人数据上进行微调,实现跨本体迁移。实验表明,H-RDT在仿真和真实场景中的多种本体上表现优异,对比主流VLA模型具有明显优势。


1-4.jpg


H-RDT模型的跨本体迁移能力与少样本学习效率,为机器人在不同场景下的快速适应与高效操作提供了可能,有望推动智能家居、工业制造、医疗护理等多领域的智能化应用升级。H-RDT模型曾参加CVPR 2025 RoboTwin双臂机器人比赛获真机赛冠军。


更多可阅读:《H-RDT:基于人类操作数据的跨本体机器人学习






▪ 关于地平线机器人实验室


地平线机器人实验室是地平线三大创新实验室之一,聚焦具身智能基础算法和框架的研发,推动通用机器人的实现。团队具有Manipulation、Mobility和Real2Sim三个主要研究方向,致力于探索机器人技术的工业化落地。


团队在CVPR、NeurIPS、IROS、AAAI等顶尖学术会议发表论文20余篇,已开源的代码库获收藏超1000次。曾获张江国际人形机器人技巧挑战赛双臂协作仿真赛第一名,CVPR2025 RoboTwin双臂协作真机赛第一名。

分享文章

欢迎订阅地平线相关资讯,您可以随时取消订阅。

立即订阅

同意隐私政策,允许向我推送地平线的新闻、资讯及更多内容。

提交成功!

感谢您的订阅, 我们会第一时间推送地平线最新活动与资讯到您邮箱

6-1.jpg 618db6f9-665a-4ec5-a04a-bb65a3df9030.jpg