首页 /研究 /通过残差潜在动作学习基于视觉特征的世界模型
LEARNING开放获取

通过残差潜在动作学习基于视觉特征的世界模型

Xinyu Zhang, Zhengtong Xu, Yutian Tao, Yeping Wang, Yu She, Abdeslam Boularias

2026

摘要

本文提出了一种名为残差潜在动作(RLA)的新型潜在动作表示,可从DINO残差中轻松学习,并具有预测性和泛化能力。基于RLA,作者构建了RLA世界模型(RLA-WM),通过流匹配预测RLA值,在模拟和真实数据集上优于现有最先进方法,同时速度比视频扩散模型快数个数量级。

关键词

world modelresidual latent actionvisual featuresflow matchingrobot learning

相关论文