首页 /研究 /基于可表达流教师模型的对抗性双在线策略蒸馏
LEARNING开放获取

基于可表达流教师模型的对抗性双在线策略蒸馏

Zhenglin Wan, Jingxuan Wu, Xingrui Yu, Chubin Zhang, Mingcong Lei, Bo An, Ivor W. Tsang, Yang You

2026

摘要

提出FA-OPD方法,从演示中学习流匹配教师模型,并与轻量MLP学生模型协同训练,通过奖励通道和动作通道提供互补信号,实现在线探索与局部稳定利用的结合。在多种机器人任务上显著优于现有基线,尤其对噪声和有限演示数据表现出强鲁棒性。

关键词

adversarial dual on-policy distillationflow matchingbehavioral cloningrobot learningdemonstration learning

相关论文