理解视觉与语言信息并与人类和环境交互的机器智能

Van Quang Nguyen

摘要

本文提出GRIT和LTMI等新型架构，改进图像描述、视觉对话和交互指令跟随等视觉-语言任务。通过整合网格与区域特征及轻量级注意力机制，提升了推理精度与速度。

image captioningvisual dialoginstruction followingtransformervision-language

PERCEPTION

📊 22,245 引用

1995

PERCEPTION

📊 14,348 引用

Andreas Geiger, P Lenz, R. Urtasun

2012

PERCEPTION

开放获取📊 9,777 引用

Martı́n Abadi, Ashish Agarwal, Paul Barham 等 20 位作者

2016

PERCEPTION

📊 9,681 引用

Andreas Geiger, Philip Lenz, Christoph Stiller 等 4 位作者

2013