开发者说|地平线HoloAgent-0:构建具身执行闭环,让Agent走入物理世界
2026/07/04

更多机器人演示、技术细节和代码更新可见项目主页与技术报告。
• GitHub代码:https://github.com/HorizonRobotics/HoloAgent
• 项目主页:https://horizonrobotics.github.io/robot_lab/holoagent
• 论文链接:https://arxiv.org/abs/2606.23565
概述让Agent走入物理世界
让机器人成为物理世界中可靠的具身智能体,不能只依赖一次性的语言规划,也不能简单串接导航、操作和运动控制模块。真实机器人必须通过传感器感知世界、通过执行器改变世界,因此物理技能执行天然伴随不确定性:感知可能不完整,执行可能有偏差,复杂技能也可能失败或只完成部分任务。
HoloAgent-0的核心思路,是为机器人建立一套系统级执行抽象:让物理技能像软件工具一样被统一调用,同时让每个技能持续反馈执行进展、异常状态和恢复机会。基于这一抽象,机器人可以在“观察—检索—规划—执行—验证—更新”的循环中持续运行,而不是一次性生成计划后被动执行。
系统由Embodied AgentOS、Memory Layer和Skill Layer三层组成,分别负责任务级闭环执行、持久化3D时空记忆维护,以及可调用、带反馈的机器人技能封装。三层协同,使HoloAgent-0能够将真实机器人的导航、操作、运动、感知和交互能力组织成可部署、可监测、可恢复的具身Agent系统。
总体框架可闭环执行的具身Agent系统
HoloAgent-0的目标不是替代底层机器人模型,而是把已有机器人能力组织成一个可部署、可监测、可恢复的Agent系统。在数字世界中,Agent Harness负责连接LLM、工具调用、状态记录和执行反馈,使Agent能够在软件环境中持续运行;而在物理世界中,HoloAgent-0进一步将这种执行抽象扩展到真实机器人,把空间记忆、机器人技能、执行监测和失败恢复组织到同一个闭环中。
当用户通过语音或文本提出任务后,AgentOS会理解用户意图,并从3D时空记忆中检索相关房间、物体、观察视角和历史执行状态。随后,系统将任务拆解为可执行的技能图,调度不同机器人平台或技能后端完成任务。执行过程中,HoloAgent-0会持续跟踪任务进展和异常状态,并根据反馈判断任务是否完成、是否需要重试、是否需要更新记忆,或是否需要向用户请求澄清。这样,机器人不再只是执行一串静态动作,而是在真实世界中持续感知、决策和修正。

HoloAgent-0 框架概览
HoloAgent-0以Embodied AgentOS为核心,连接3D时空记忆与机器人技能,使机器人能够理解任务、调用能力、检查结果并根据反馈调整行动,形成面向真实物理世界的自主执行闭环。
系统的整体设计思路,是将数字Agent Harness的运行机制扩展到真实机器人场景,并形成四个核心原则:
闭环优先:将数字Agent Harness中的“执行—反馈—修正”循环,扩展为HoloAgent中“观察—检索—执行—反馈—修正”的具身执行闭环。
记忆为中心:将数字Agent的持久化状态,扩展为HoloAgent的3D时空记忆,使机器人能够复用空间状态、任务进展和执行历史,而不是只依赖当前相机视野或短期对话。
技能接口统一:将软件工具的API调用机制,扩展为机器人技能调用,把导航、操作、运动和交互能力封装为可调用、可反馈的技能。
状态可监测:将工具调用和运行状态记录,扩展为机器人执行监测,记录命令、状态、检索结果和技能反馈,支持调试、失败诊断和运行时恢复。
Embodied AgentOS从语言指令到真实机器人闭环执行

HoloAgent执行不同指令时的机器人动作序列,展示了AgentOS将自然语言指令转化为机器人闭环执行流程的能力。
Embodied AgentOS是HoloAgent-0的规划与调度中枢,负责将自然语言意图转化为真实机器人的闭环执行流程。它不是把LLM当作一次性规划器,而是在任务执行过程中持续维护状态、检索空间上下文、调度机器人技能,并根据执行反馈进行确认、恢复或重规划。
具体来说,AgentOS会先将用户指令解析为可执行的技能图,并把语言目标绑定到具体空间对象,例如房间、物体、观察视角或候选操作区域。随后,系统调度导航、感知、操作、运动和交互等技能完成任务,并持续监控执行进展。当目标不明确、环境发生变化、技能执行失败,或任务结果无法验证时,AgentOS会触发用户确认、技能重试或任务重规划。执行结束后,新的观察、任务结果和执行轨迹会写回3D时空记忆,使后续任务能够复用更新后的世界状态。
3D时空记忆让机器人知道在哪、做过什么
真实机器人要长期运行,不仅要理解自己所在的物理空间,还要记住任务执行过程中发生过什么。HoloAgent-0的3D时空记忆让机器人知道房间在哪里、物体在哪里、从哪里可以看到目标,以及过去执行过哪些任务。这样,当用户提出“带我去找咖啡机”或“去刚才看到的机器人那里”时,系统可以利用已有记忆快速缩小搜索范围,而不是每次都从当前相机画面重新理解环境。

系统将多模态感知数据组织为结构化场景图HMSG,并作为机器人空间记忆持续维护。
为支持高效检索,系统使用Hierarchical Multimodal Scene Graph (HMSG) 将空间信息组织成“楼层—房间—观察点—物体”的层级结构,使机器人可以先缩小搜索范围,再进行视觉确认。任务失败或环境变化后,机器人也可以只更新受影响的局部记忆,而不需要重新构建整个环境表示。通过3D时空记忆,机器人能够在长期运行中持续积累、修正和复用世界状态。这种记忆能力不仅服务于目标搜索,也为状态验证、失败恢复和长程任务规划提供了关键上下文。

HMSG层次化多模态场景图将环境表示为楼层、房间、视图和物体四个层级,并通过层级关系与拓扑关系连接不同空间单元。
机器人技能长程导航、操作与运动协同

HoloAgent基础导航框架流程示意图:先逐步缩小搜索范围,再在线验证目标,并在信息不足时主动探索、更新空间记忆。
在机器人技能层,HoloAgent-0开发了地平线具身基础导航框架HoloNavi,帮助机器人在真实环境中根据语言目标、物体目标、探索前沿或目标位置完成导航。不同于只走向固定坐标点,HoloNavi会结合3D时空记忆、语义检索、视觉确认和主动探索,逐步判断目标可能在哪里、目标是否真实存在,以及是否需要继续搜索。
在开放词汇目标导航中,HoloNavi会将自然语言指令转化为结构化空间查询,并在HMSG中检索候选房间、观察视角和物体实例;随后通过语义匹配与视觉验证缩小目标范围,并在到达候选位置后确认目标是否存在。当现有记忆不足以定位目标时,系统会主动探索新的候选区域。导航过程中的新观察、目标验证结果和失败信息会返回AgentOS,并写回3D时空记忆,用于后续重试、恢复或重规划。语音交互技能也接入AgentOS,使机器人能够在导览和目标搜索过程中与人持续沟通。
为了评估AgentOS闭环对机器人执行能力的提升,我们分别在仿真和真实场景中开展长程导航评测。在HM3D-ObjNav基准上,HoloAgent-Nav取得82.6% SR和42.8% SPL,优于FSR-VLN slow-reasoning的80.8%/41.0%和MSGNav的74.1%/33.4%,说明AgentOS闭环在提升目标到达成功率的同时,也保持了较好的路径效率。在真实人形机器人导航中,HoloAgent-Nav达到97.7% Top-1@1m和98.9% Top-5@1m成功率,验证了系统在真实环境下的长程闭环执行能力。

HM3D-ObjNav仿真导航基准性能对比,HoloAgent-Nav在成功率和路径效率上均取得更优结果。

真实机器人导航评测结果,展示HoloAgent-Nav在真实环境中的长程闭环执行能力。
除了导航,HoloAgent-0还接入了地平线具身基础操作模型HoloBrain,将导航能力与操作能力结合起来,支持长程移动操作任务。对于抓取、放置、开合、递送等局部操作,AgentOS不直接控制机械臂,而是将HoloBrain提供的能力封装为可调用、可反馈的操作技能。对于复杂任务,系统会先由HoloNavi将机器人移动到相关区域,再由HoloBrain执行短距离操作,并通过执行反馈检查任务进展。当目标缺失、遮挡、不可达或操作失败时,AgentOS可以触发重新检索、导航重定位、技能重试或子计划更新。
同时,HoloAgent-0还接入了地平线具身基础小脑模型HoloMotion,将人形机器人的全身运动能力纳入同一套AgentOS闭环。AgentOS可以通过高层指令调度机器人行走、转向和动作交互,而不需要直接处理底层关节控制。HoloMotion会在执行过程中持续返回运动进度、稳定状态和完成结果,使AgentOS能够根据真实执行状态继续调度后续技能,或在异常情况下触发恢复与重规划。
跨机器人协作让不同机器人共享记忆、协同执行
HoloAgent-0通过共享记忆和标准化技能接口组织不同机器人本体,实现轻量级跨机器人协作。一个机器人可以负责导航、搜索或更新空间记忆,另一个机器人可以基于共享目标信息执行交互动作或操作技能。
机器人之间通过同一套 3D 时空记忆共享观察结果、地图更新和执行状态。AgentOS根据各平台的能力、位置和可用状态分配任务,并通过统一接口跟踪执行进展和异常情况。通过这种方式,系统无需为特定机器人组合定制控制器,也能实现跨本体协同执行。
总结
走向真实世界的具身AgentHoloAgent-0面向真实机器人部署,构建了一套统一具身智能体框架,将数字LLM Agent的工具调用、状态反馈和重规划循环扩展到物理世界。系统依托Embodied AgentOS、3D时空记忆,以及可调用、可反馈、可恢复的机器人技能,将导航、感知、操作、全身运动和跨机器人协作组织为可部署、可监测、可恢复的具身执行闭环。
本次更新HoloAgent-0展示了具身Agent在长程导航、跨机器人协作和移动操作等任务中的组合执行能力。面向未来,HoloAgent将持续推进机器人从“能执行单点技能”走向“能在真实环境中长期运行、持续反馈、协同完成任务”的通用具身智能体。
分享文章
欢迎订阅地平线相关资讯,您可以随时取消订阅。
感谢您的订阅, 我们会第一时间推送地平线最新活动与资讯到您邮箱