首页 /研究 /FineVLA:面向可操控视觉-语言-动作策略的细粒度指令对齐
MANIPULATION开放获取

FineVLA:面向可操控视觉-语言-动作策略的细粒度指令对齐

Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu

2026

摘要

本文提出FineVLA框架,通过构建包含47,159条细粒度轨迹的数据集和专用VLM标注器,实现机器人动作执行中细粒度指令(如手臂朝向、接触区域)与目标级指令的混合训练。实验表明细粒度监督不牺牲任务成功率,且与原始指令互补,在仿真和真实双臂操作中均取得显著提升。

关键词

Vision-Language-Actionfine-grained instructionsteerable policyrobot manipulationdata annotation

相关论文