首页 /研究 /解耦延迟补偿:通过学习的动力学滤波增强预训练多智能体强化学习策略
LEARNING开放获取

解耦延迟补偿:通过学习的动力学滤波增强预训练多智能体强化学习策略

Maxim Mednikov, Oren Gal

2026

摘要

本文提出了一种模块化的执行阶段状态估计层,通过学习门控转移模型和递归卡尔曼滤波层,从异步测量中估计瞬时状态,以替代延迟的通信观测。该方法作为预训练策略的即插即用模块,无需修改原始训练算法,显著提升了多智能体系统在通信延迟和消息丢失下的鲁棒性。

关键词

multi-agent reinforcement learningcommunication delaystate estimationKalman filterrobustness

相关论文