首页 /研究 /QuoVLA:面向视觉-语言-动作模型的商空间框架
LEARNING开放获取

QuoVLA:面向视觉-语言-动作模型的商空间框架

Xuan Wang, Yinan Wu, Haoran Duan, Jungong Han

2026

摘要

本文提出QuoVLA,一种基于商空间理论的视觉-语言-动作模型框架,通过量化模块和双分支设计压缩预训练VLM的潜在表示,去除提示级冗余并保留动作相关信息。实验表明该方法在视觉、语言和环境分布偏移下具有优异的泛化性能。

关键词

Vision-Language-Actionquotient spaceaction-sufficient representationgeneralizationrobot control

相关论文