首页 /研究 /EvoScene-VLA:在动作解码器中演化场景信念以实现分块机器人控制
MANIPULATION开放获取

EvoScene-VLA:在动作解码器中演化场景信念以实现分块机器人控制

Chushan Zhang, Ruihan Lu, Jinguang Tong, Xuesong Li, Yikai Wang, Hongdong Li

2026

摘要

提出一种持久化、由动作更新的场景状态,跨控制块传递,使视觉语言模型能结合当前观测与先前动作产生的场景先验。在31个RoboTwin任务和真实机器人上取得提升,但改进幅度有限,并非突破性进展。

关键词

vision-language-actionscene prioraction-updated statechunked controlrobotic manipulation

相关论文