FineVLA：面向可操控视觉-语言-动作策略的细粒度指令对齐

Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu

发表年份: 2026
访问权限: 开放获取

摘要

本文提出FineVLA框架，通过构建包含47,159条细粒度轨迹的数据集和专用VLM标注器，实现机器人动作执行中细粒度指令（如手臂朝向、接触区域）与目标级指令的混合训练。实验表明细粒度监督不牺牲任务成功率，且与原始指令互补，在仿真和真实双臂操作中均取得显著提升。

关键词

Vision-Language-Actionfine-grained instructionsteerable policyrobot manipulationdata annotation

FineVLA：面向可操控视觉-语言-动作策略的细粒度指令对齐

摘要

关键词

相关论文

Real-Time Obstacle Avoidance for Manipulators and Mobile Robots

A Mathematical Introduction to Robotic Manipulation

Robot dynamics and control

A tutorial on visual servo control