开发者说｜地平线HoloAgent-0：构建具身执行闭环，让Agent走入物理世界

2026/07/04

更多机器人演示、技术细节和代码更新可见项目主页与技术报告。

• GitHub代码：https://github.com/HorizonRobotics/HoloAgent

• 项目主页：https://horizonrobotics.github.io/robot_lab/holoagent

• 论文链接：https://arxiv.org/abs/2606.23565

概述让Agent走入物理世界

让机器人成为物理世界中可靠的具身智能体，不能只依赖一次性的语言规划，也不能简单串接导航、操作和运动控制模块。真实机器人必须通过传感器感知世界、通过执行器改变世界，因此物理技能执行天然伴随不确定性：感知可能不完整，执行可能有偏差，复杂技能也可能失败或只完成部分任务。

HoloAgent-0的核心思路，是为机器人建立一套系统级执行抽象：让物理技能像软件工具一样被统一调用，同时让每个技能持续反馈执行进展、异常状态和恢复机会。基于这一抽象，机器人可以在“观察—检索—规划—执行—验证—更新”的循环中持续运行，而不是一次性生成计划后被动执行。

系统由Embodied AgentOS、Memory Layer和Skill Layer三层组成，分别负责任务级闭环执行、持久化3D时空记忆维护，以及可调用、带反馈的机器人技能封装。三层协同，使HoloAgent-0能够将真实机器人的导航、操作、运动、感知和交互能力组织成可部署、可监测、可恢复的具身Agent系统。

总体框架可闭环执行的具身Agent系统

HoloAgent-0的目标不是替代底层机器人模型，而是把已有机器人能力组织成一个可部署、可监测、可恢复的Agent系统。在数字世界中，Agent Harness负责连接LLM、工具调用、状态记录和执行反馈，使Agent能够在软件环境中持续运行；而在物理世界中，HoloAgent-0进一步将这种执行抽象扩展到真实机器人，把空间记忆、机器人技能、执行监测和失败恢复组织到同一个闭环中。

当用户通过语音或文本提出任务后，AgentOS会理解用户意图，并从3D时空记忆中检索相关房间、物体、观察视角和历史执行状态。随后，系统将任务拆解为可执行的技能图，调度不同机器人平台或技能后端完成任务。执行过程中，HoloAgent-0会持续跟踪任务进展和异常状态，并根据反馈判断任务是否完成、是否需要重试、是否需要更新记忆，或是否需要向用户请求澄清。这样，机器人不再只是执行一串静态动作，而是在真实世界中持续感知、决策和修正。

HoloAgent-0 框架概览

HoloAgent-0以Embodied AgentOS为核心，连接3D时空记忆与机器人技能，使机器人能够理解任务、调用能力、检查结果并根据反馈调整行动，形成面向真实物理世界的自主执行闭环。

系统的整体设计思路，是将数字Agent Harness的运行机制扩展到真实机器人场景，并形成四个核心原则：

闭环优先：将数字Agent Harness中的“执行—反馈—修正”循环，扩展为HoloAgent中“观察—检索—执行—反馈—修正”的具身执行闭环。
记忆为中心：将数字Agent的持久化状态，扩展为HoloAgent的3D时空记忆，使机器人能够复用空间状态、任务进展和执行历史，而不是只依赖当前相机视野或短期对话。
技能接口统一：将软件工具的API调用机制，扩展为机器人技能调用，把导航、操作、运动和交互能力封装为可调用、可反馈的技能。
状态可监测：将工具调用和运行状态记录，扩展为机器人执行监测，记录命令、状态、检索结果和技能反馈，支持调试、失败诊断和运行时恢复。

Embodied AgentOS从语言指令到真实机器人闭环执行

HoloAgent执行不同指令时的机器人动作序列，展示了AgentOS将自然语言指令转化为机器人闭环执行流程的能力。

Embodied AgentOS是HoloAgent-0的规划与调度中枢，负责将自然语言意图转化为真实机器人的闭环执行流程。它不是把LLM当作一次性规划器，而是在任务执行过程中持续维护状态、检索空间上下文、调度机器人技能，并根据执行反馈进行确认、恢复或重规划。

具体来说，AgentOS会先将用户指令解析为可执行的技能图，并把语言目标绑定到具体空间对象，例如房间、物体、观察视角或候选操作区域。随后，系统调度导航、感知、操作、运动和交互等技能完成任务，并持续监控执行进展。当目标不明确、环境发生变化、技能执行失败，或任务结果无法验证时，AgentOS会触发用户确认、技能重试或任务重规划。执行结束后，新的观察、任务结果和执行轨迹会写回3D时空记忆，使后续任务能够复用更新后的世界状态。

3D时空记忆让机器人知道在哪、做过什么

真实机器人要长期运行，不仅要理解自己所在的物理空间，还要记住任务执行过程中发生过什么。HoloAgent-0的3D时空记忆让机器人知道房间在哪里、物体在哪里、从哪里可以看到目标，以及过去执行过哪些任务。这样，当用户提出“带我去找咖啡机”或“去刚才看到的机器人那里”时，系统可以利用已有记忆快速缩小搜索范围，而不是每次都从当前相机画面重新理解环境。

系统将多模态感知数据组织为结构化场景图HMSG，并作为机器人空间记忆持续维护。

为支持高效检索，系统使用Hierarchical Multimodal Scene Graph (HMSG) 将空间信息组织成“楼层—房间—观察点—物体”的层级结构，使机器人可以先缩小搜索范围，再进行视觉确认。任务失败或环境变化后，机器人也可以只更新受影响的局部记忆，而不需要重新构建整个环境表示。通过3D时空记忆，机器人能够在长期运行中持续积累、修正和复用世界状态。这种记忆能力不仅服务于目标搜索，也为状态验证、失败恢复和长程任务规划提供了关键上下文。

HMSG层次化多模态场景图将环境表示为楼层、房间、视图和物体四个层级，并通过层级关系与拓扑关系连接不同空间单元。

机器人技能长程导航、操作与运动协同

HoloAgent基础导航框架流程示意图：先逐步缩小搜索范围，再在线验证目标，并在信息不足时主动探索、更新空间记忆。

在机器人技能层，HoloAgent-0开发了地平线具身基础导航框架HoloNavi，帮助机器人在真实环境中根据语言目标、物体目标、探索前沿或目标位置完成导航。不同于只走向固定坐标点，HoloNavi会结合3D时空记忆、语义检索、视觉确认和主动探索，逐步判断目标可能在哪里、目标是否真实存在，以及是否需要继续搜索。

在开放词汇目标导航中，HoloNavi会将自然语言指令转化为结构化空间查询，并在HMSG中检索候选房间、观察视角和物体实例；随后通过语义匹配与视觉验证缩小目标范围，并在到达候选位置后确认目标是否存在。当现有记忆不足以定位目标时，系统会主动探索新的候选区域。导航过程中的新观察、目标验证结果和失败信息会返回AgentOS，并写回3D时空记忆，用于后续重试、恢复或重规划。语音交互技能也接入AgentOS，使机器人能够在导览和目标搜索过程中与人持续沟通。

为了评估AgentOS闭环对机器人执行能力的提升，我们分别在仿真和真实场景中开展长程导航评测。在HM3D-ObjNav基准上，HoloAgent-Nav取得82.6% SR和42.8% SPL，优于FSR-VLN slow-reasoning的80.8%/41.0%和MSGNav的74.1%/33.4%，说明AgentOS闭环在提升目标到达成功率的同时，也保持了较好的路径效率。在真实人形机器人导航中，HoloAgent-Nav达到97.7% Top-1@1m和98.9% Top-5@1m成功率，验证了系统在真实环境下的长程闭环执行能力。

HM3D-ObjNav仿真导航基准性能对比，HoloAgent-Nav在成功率和路径效率上均取得更优结果。

真实机器人导航评测结果，展示HoloAgent-Nav在真实环境中的长程闭环执行能力。

除了导航，HoloAgent-0还接入了地平线具身基础操作模型HoloBrain，将导航能力与操作能力结合起来，支持长程移动操作任务。对于抓取、放置、开合、递送等局部操作，AgentOS不直接控制机械臂，而是将HoloBrain提供的能力封装为可调用、可反馈的操作技能。对于复杂任务，系统会先由HoloNavi将机器人移动到相关区域，再由HoloBrain执行短距离操作，并通过执行反馈检查任务进展。当目标缺失、遮挡、不可达或操作失败时，AgentOS可以触发重新检索、导航重定位、技能重试或子计划更新。

同时，HoloAgent-0还接入了地平线具身基础小脑模型HoloMotion，将人形机器人的全身运动能力纳入同一套AgentOS闭环。AgentOS可以通过高层指令调度机器人行走、转向和动作交互，而不需要直接处理底层关节控制。HoloMotion会在执行过程中持续返回运动进度、稳定状态和完成结果，使AgentOS能够根据真实执行状态继续调度后续技能，或在异常情况下触发恢复与重规划。

跨机器人协作让不同机器人共享记忆、协同执行

HoloAgent-0通过共享记忆和标准化技能接口组织不同机器人本体，实现轻量级跨机器人协作。一个机器人可以负责导航、搜索或更新空间记忆，另一个机器人可以基于共享目标信息执行交互动作或操作技能。

机器人之间通过同一套 3D 时空记忆共享观察结果、地图更新和执行状态。AgentOS根据各平台的能力、位置和可用状态分配任务，并通过统一接口跟踪执行进展和异常情况。通过这种方式，系统无需为特定机器人组合定制控制器，也能实现跨本体协同执行。

总结

走向真实世界的具身AgentHoloAgent-0面向真实机器人部署，构建了一套统一具身智能体框架，将数字LLM Agent的工具调用、状态反馈和重规划循环扩展到物理世界。系统依托Embodied AgentOS、3D时空记忆，以及可调用、可反馈、可恢复的机器人技能，将导航、感知、操作、全身运动和跨机器人协作组织为可部署、可监测、可恢复的具身执行闭环。

本次更新HoloAgent-0展示了具身Agent在长程导航、跨机器人协作和移动操作等任务中的组合执行能力。面向未来，HoloAgent将持续推进机器人从“能执行单点技能”走向“能在真实环境中长期运行、持续反馈、协同完成任务”的通用具身智能体。

分享文章