首页 /研究 /TMRL:扩散时间步调制预训练实现高效策略微调的探索
LEARNING开放获取

TMRL:扩散时间步调制预训练实现高效策略微调的探索

Matthew M. Hong, Jesse Zhang, Anusha Nagabandi, Abhishek Gupta

2026

摘要

本文提出统一框架TMRL,通过上下文平滑预训练(CSP)在策略输入中注入前向扩散噪声,桥接行为克隆预训练与强化学习微调。该方法使智能体在微调时动态调节扩散时间步,有效控制探索,在复杂操作任务中实现一小时内完成真实世界微调。

关键词

reinforcement learningfine-tuningdiffusion modelexplorationrobot policy

相关论文