开发者说|DIPO:应用于具身智能仿真的3D铰链物体生成新范式
2025/11/19


• 技术报告:
https://arxiv.org/abs/2505.20460
• Huggingface Demo:
https://huggingface.co/spaces/HorizonRobotics/DIPO
• PM-X数据集:
https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset
• 项目主页:
https://rq-wu.github.io/projects/DIPO
行业痛点:3D铰链物体的资产荒
迈向通用具身智能,需要机器人需要在仿真环境中与冰箱、烤箱等复杂铰链(可活动关节)物体进行深度交互训练。然而此类资产的构建面临“采集难、建模慢、数据简”的挑战:真实物体的关节参数与运动范围测量成本极高;人工逐件装配与URDF标注耗时费力;主流数据集(如 PartNet-Mobility)平均部件数不足5个,其低复杂度结构滞后于真实世界的物理多样性,严重制约了智能体的场景泛化能力。
模型方案:双状态输入+思维链推理
DIPO摒弃了“单图猜结构”的传统路径,开辟了一条新的技术路线:通过输入物体“静止状态图”与“关节活动状态图”这一对双状态图像,显式编码关键的运动信息。

提出了一个双状态注入模块,通过注意力机制让模型学习“静止”与“活动”两张图像之间的差异,捕捉图像对间的关联特征,从而生成可靠的部件布局与关节参数。为了解决复杂物体部件连接关系(如多层抽屉、双开门)的识别难题,DIPO引入了基于思维链的图推理器。 这个推理器模拟了人类的认知过程,分步骤进行逻辑推断,大幅提升了模型对复杂拓扑结构的理解的准确性。

数据引擎:自动化构建复杂资产
为了增强模型对复杂物体的泛化能力,靠现有的简单数据集(如 PartNet-Mobility)是远远不够的。为此,DIPO提出了一套全自动的数据集构建流程。

基于此流程,发布了大规模数据集PM-X。该数据集单个铰链物体平均部件数达到19.4个,现有数据集仅为5-8个,极大地丰富了训练数据的结构多样性与生成模型的泛化性。

实验结果:SOTA 性能表现
实验表明,DIPO在多项指标上均超越了现有最先进方法,在PartNet-Mobility测试集与分布外的ACD测试集上,重建指标与图预测准确率均显著高于基线方法。


DIPO与基线模型的可视化对比。 涵盖PM、ACD数据集及真实场景样本,展示了基于双状态图像输入的连接图预测与铰链生成结果,红框标记了基线方法的连接错误。

总结与展望
DIPO通过引入双状态图像这一低成本、高信息的输入模态,结合思维链推理与自动化数据工厂,解决复杂铰链物体生成的难题。这项工作不仅大幅提升了生成资产的结构合理性与运动一致性,更为具身智能仿真环境的快速构建提供了一种高效、可扩展的新范式。DIPO的代码与PM-X数据集已向社区开源,持续推动3D生成与具身智能仿真领域的技术发展。
分享文章
欢迎订阅地平线相关资讯,您可以随时取消订阅。
感谢您的订阅, 我们会第一时间推送地平线最新活动与资讯到您邮箱