首页 /研究 /引导、思考、行动:视觉-语言-动作模型中的交互式具身推理
HRI开放获取📊 0 引用

引导、思考、行动:视觉-语言-动作模型中的交互式具身推理

Yiran Ling, Qing Lian, Jinghang Li, Qing Jiang, Tianming Zhang, Xiaoke Jiang, Chuanxiu Liu, Jie Liu, Lei Zhang

2026

摘要

本文提出GTA-VLA框架,通过允许用户以显式视觉线索引导机器人策略,实现空间可控的具身推理。该框架将外部空间引导与内部任务规划统一为空间-视觉思维链,解决了现有模型在域外偏移和错误纠正方面的局限性。

关键词

vision-language-actionembodied reasoninghuman-robot interactionspatial guidancechain-of-thought

相关论文