开发者说|DIPO:应用于具身智能仿真的3D铰链物体生成新范式

地平线与合作者们.jpg


地平线技术报告.jpg


• 技术报告

https://arxiv.org/abs/2505.20460

• Huggingface Demo

https://huggingface.co/spaces/HorizonRobotics/DIPO

• PM-X数据集

https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset

• 项目主页

https://rq-wu.github.io/projects/DIPO



行业痛点:3D铰链物体的资产荒

迈向通用具身智能,需要机器人需要在仿真环境中与冰箱、烤箱等复杂铰链(可活动关节)物体进行深度交互训练。然而此类资产的构建面临“采集难、建模慢、数据简”的挑战:真实物体的关节参数与运动范围测量成本极高;人工逐件装配与URDF标注耗时费力;主流数据集(如 PartNet-Mobility)平均部件数不足5个,其低复杂度结构滞后于真实世界的物理多样性,严重制约了智能体的场景泛化能力。



模型方案:双状态输入+思维链推理

DIPO摒弃了“单图猜结构”的传统路径,开辟了一条新的技术路线:通过输入物体“静止状态图”与“关节活动状态图”这一对双状态图像,显式编码关键的运动信息。


地平线_关节活动状态图.jpg


提出了一个双状态注入模块,通过注意力机制让模型学习“静止”与“活动”两张图像之间的差异,捕捉图像对间的关联特征,从而生成可靠的部件布局与关节参数。为了解决复杂物体部件连接关系(如多层抽屉、双开门)的识别难题,DIPO引入了基于思维链的图推理器。 这个推理器模拟了人类的认知过程,分步骤进行逻辑推断,大幅提升了模型对复杂拓扑结构的理解的准确性。


地平线GIF展现.gif



数据引擎:自动化构建复杂资产

为了增强模型对复杂物体的泛化能力,靠现有的简单数据集(如 PartNet-Mobility)是远远不够的。为此,DIPO提出了一套全自动的数据集构建流程。


地平线数据引擎.jpg


基于此流程,发布了大规模数据集PM-X。该数据集单个铰链物体平均部件数达到19.4个,现有数据集仅为5-8个,极大地丰富了训练数据的结构多样性与生成模型的泛化性。


大规模数据集.jpg



实验结果:SOTA 性能表现

实验表明,DIPO在多项指标上均超越了现有最先进方法,在PartNet-Mobility测试集与分布外的ACD测试集上,重建指标与图预测准确率均显著高于基线方法。


地平线_实验结果1.jpg
地平线_实验结果2.jpg


DIPO与基线模型的可视化对比。 涵盖PM、ACD数据集及真实场景样本,展示了基于双状态图像输入的连接图预测与铰链生成结果,红框标记了基线方法的连接错误。


地平线_DIPO与基线模型的可视化对比.jpg



总结与展望

DIPO通过引入双状态图像这一低成本、高信息的输入模态,结合思维链推理与自动化数据工厂,解决复杂铰链物体生成的难题。这项工作不仅大幅提升了生成资产的结构合理性与运动一致性,更为具身智能仿真环境的快速构建提供了一种高效、可扩展的新范式。DIPO的代码与PM-X数据集已向社区开源,持续推动3D生成与具身智能仿真领域的技术发展。

分享文章

欢迎订阅地平线相关资讯,您可以随时取消订阅。

立即订阅

同意隐私政策,允许向我推送地平线的新闻、资讯及更多内容。

提交成功!

感谢您的订阅, 我们会第一时间推送地平线最新活动与资讯到您邮箱

6-1.jpg 618db6f9-665a-4ec5-a04a-bb65a3df9030.jpg