Uni-LaViRA：面向统一具身导航的语言-视觉-机器人动作翻译

Hongyu Ding, Sizhuo Zhang, Ziming Xu, Jinwen Guo, Hongxiu Liu, Xingzhi Cheng, Zixuan Chen, Haifei Qi, Duo Wang, Hao Xu, Jieqi Shi, Yifan Zhang, Jing Huo, Jian Cheng, Yang Gao, Jiebo Luo

发表年份: 2026
访问权限: 开放获取

摘要

本文提出Uni-LaViRA架构，通过将导航任务分解为语言动作（语义级方向指令）和视觉动作（像素级视觉目标），利用预训练多模态大语言模型实现零样本的跨任务、跨机器人泛化。该工作无需大规模机器人数据训练，即可在VLN-CE、ObjectNav等四个任务族和四种异构机器人上统一执行导航。

关键词

embodied navigationlanguage-vision-actionmultimodal LLMzero-shotunified architecture

Uni-LaViRA：面向统一具身导航的语言-视觉-机器人动作翻译

摘要

关键词

相关论文

Trust Region Policy Optimization

Legged Robots That Balance

Being there: putting brain, body, and world together again

Small-scale soft-bodied robot with multimodal locomotion