首页 /研究 /基于视觉基元的动作(AVP)
MANIPULATION开放获取

基于视觉基元的动作(AVP)

Weilong Guo, Yuchen Wang, Renping Zhou, Yunfeng Zhang, Rui Fang, Yue Meng, Wenda Xu, Yuan He, Gao Huang

2026

摘要

提出AVP架构,通过让VLM推断下一阶段目标并生成视觉基元token,来条件化流匹配动作专家,从而解耦指令理解、场景感知与运动控制。在通用拾放任务上,AVP相比pi_0.5提升27.61%成功率,并在数据效率、空间组合泛化和物体级迁移上表现一致。

关键词

Vision-Language-Actionvisual primitivesrobotic manipulationflow matchinggeneralization

相关论文