首页 /研究 /利用语言模型先验从观测中学习POMDP世界模型
LEARNING开放获取

利用语言模型先验从观测中学习POMDP世界模型

Valentin Six, Frederik Panse, Mathis Fajeau, Lancelot Da Costa, Mridul Sharma, Alfonso Amayuelas, Tim Z. Xiao, David Hyland, Philipp Hennig, Bernhard Schölkopf

2026

摘要

本文提出Pinductor方法,利用语言模型先验从少量观测-动作轨迹中学习部分可观测马尔可夫决策过程(POMDP)世界模型,并通过迭代优化基于信念的似然分数来提升模型质量。实验表明,该方法在样本效率上优于传统表格型POMDP基线,且性能随语言模型能力提升而增强。

关键词

POMDPworld modellanguage model priorsample efficiencyLLM

相关论文