首页 /研究 /Uni-LaViRA:面向统一具身导航的语言-视觉-机器人动作翻译
LOCOMOTION开放获取

Uni-LaViRA:面向统一具身导航的语言-视觉-机器人动作翻译

Hongyu Ding, Sizhuo Zhang, Ziming Xu, Jinwen Guo, Hongxiu Liu, Xingzhi Cheng, Zixuan Chen, Haifei Qi, Duo Wang, Hao Xu, Jieqi Shi, Yifan Zhang, Jing Huo, Jian Cheng, Yang Gao, Jiebo Luo

2026

摘要

本文提出Uni-LaViRA架构,通过将导航任务分解为语言动作(语义级方向指令)和视觉动作(像素级视觉目标),利用预训练多模态大语言模型实现零样本的跨任务、跨机器人泛化。该工作无需大规模机器人数据训练,即可在VLN-CE、ObjectNav等四个任务族和四种异构机器人上统一执行导航。

关键词

embodied navigationlanguage-vision-actionmultimodal LLMzero-shotunified architecture

相关论文