首页 /研究 /GEM-4D:几何增强视频世界模型用于机器人操作
MANIPULATION开放获取

GEM-4D:几何增强视频世界模型用于机器人操作

Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang

2026

摘要

本文提出GEM-4D,通过注入从预训练几何基础模型蒸馏的密集4D对应监督,使视频世界模型在生成时保持一致的几何结构。同时引入逆动力学模块,将几何一致的视频滚动转换为可执行的机器人轨迹,显著提升真实世界操作成功率。

关键词

video world modelgeometry groundingrobot manipulation4D correspondenceinverse dynamics

相关论文