开发者说|MapDream:让导航任务决定地图如何生成,而不应由专家预设

1 (2).jpg


2.jpg


• 论文题目

MapDream: Task-Driven Map Learning for Vision-Language Navigation

• 论文链接

https://arxiv.org/abs/2602.00222

• 项目主页

https://horizonrobotics.github.io/robot_lab/mapdream



从专家设计到任务主导

传统VLN系统中的地图通常依赖专家规则或独立建图模块生成,其语义与几何结构在训练过程中保持固定。导航策略只能被动消费这些表示,无法反向影响地图该强调哪些空间线索。MapDream打破了这一结构:我们在大规模数据支撑下,将地图构建纳入端到端训练框架,通过监督预训练与强化学习联合微调,使空间表示直接围绕导航目标学习。VLN中真正重要的,并非完整复原环境,而是为当前任务生成最有价值的空间接口。


3.jpg

MapDream将地图表示纳入训练闭环,由任务直接塑造,而非专家预设。


在MapDream中,地图被重新定义为一种可学习的中间表示。系统接收多帧单目观测与自然语言指令,自回归生成任务相关的BEV表示,仅保留三类与决策高度相关的要素——可通行结构、目标相关距离以及语义锚点。这种紧凑表达被输入到VLN策略中用于多步动作预测,并在强化学习阶段与策略同步优化,使最终得到的地图分布与成功导航行为保持一致。



两阶段训练

让地图真正进入学习闭环

MapDream采用两阶段训练流程,使地图从专家先验出发,最终由任务目标决定。


4.jpg

MapDream采用两阶段训练:先建立建图—控制接口,再以强化学习联合优化,使地图服务于导航决策而非几何重建。


第一阶段是监督预训练。通过轻量化的任务驱动BEV监督,模型学习基础空间抽象,同时训练策略学会使用这些地图进行决策,从而建立稳定的“建图—控制”接口。


第二阶段是强化学习联合微调。地图模块与VLN策略在统一导航奖励下同步更新。此时地图不再仅追求几何一致性,而是被任务回报直接牵引,系统性地调整为最有利于完成指令的空间表达。


通过这一闭环过程,地图真正成为由任务目标主导学习的核心表示。



任务决定地图

改变机器人的导航方式

当地图表示进入学习闭环后,机器人的行为模式发生了显著变化。在长程指令执行中,它不再仅依赖局部观测,而是借助生成的BEV抽象形成更稳定的全局方向感。路径更加贴近示范轨迹,回溯与绕行明显减少,整体执行呈现出更强的空间连贯性。


5.jpg

MapDream仅凭单目生成紧凑BEV地图,紧贴真实路径,优于在模糊路口易偏离的无地图基线。


在标准VLN基准中,MapDream在单目设置下取得领先结果,并在跨数据集泛化与真实机器人实验中保持稳定表现。这表明,由任务目标塑造的地图能够捕捉具有迁移性的空间结构,而不仅仅适配单一环境。


6.jpg

在R2R-CE与RxR-CE Val-Unseen上,MapDream单目性能最佳,路径效率优于全景方法。



总结与展望

MapDream重新界定了视觉语言导航中“地图”的角色。它不再是专家规则主导的静态模块,而是一种在训练阶段由任务目标塑造、并与决策系统端到端耦合的生成式空间接口。机器人在决定“下一步往哪走”之前,先通过地图理解当前最关键的空间关系,从而形成更高效、更稳定的长程决策能力。


未来,我们希望将这一任务驱动地图学习范式扩展到更长期的空间记忆、更复杂的交互任务以及真实环境中的自主探索,为具身智能构建真正以任务目标为核心的空间认知系统。

分享文章

欢迎订阅地平线相关资讯,您可以随时取消订阅。

立即订阅

同意隐私政策,允许向我推送地平线的新闻、资讯及更多内容。

提交成功!

感谢您的订阅, 我们会第一时间推送地平线最新活动与资讯到您邮箱

6-1.jpg 618db6f9-665a-4ec5-a04a-bb65a3df9030.jpg