LEARNING开放获取
比率方差正则化策略优化
Yu Luo, Shuo Han, Yihan Hu, Lei Lv, Huaping Liu, Fuchun Sun, Jianye Hao, Dong Li
2026
摘要
提出了一种通过约束策略比率方差来近似信任区域约束的新方法,避免了传统PPO中启发式裁剪带来的梯度信号损失。该方法在多种LLM规模和机器人控制任务上均取得了显著性能提升,特别是在小模型和稀疏奖励环境中表现突出。
关键词
reinforcement learningpolicy optimizationratio-variance regularizationtrust regionprimal-dual optimization
相关论文
LEARNING
开放获取📊 1 引用
面向学习与规划的并行可微可达性:具有认证神经动力学与控制器的系统
Keyi Shen, Glen Chou
2026
LEARNING
📊 0 引用
基于深度强化学习和动态图神经网络的多任务机器人调度代理
Hedi Boukamcha, Anas Neumann, Monia Rekik 等 6 位作者
Robotics and Computer-Integrated Manufacturing · 2026
LEARNING
📊 0 引用
人工智能增强的智能焊接岛:基础模型革新制造业
Xiwei Wu, Wei Wu, Qiqi Chen 等 9 位作者
Robotics and Computer-Integrated Manufacturing · 2026
MANIPULATION
📊 0 引用
PAEAR:基于强化学习的点云区域探索与主动识别方法用于机器人焊接
Yong Tao, Donghua Tan, Fan Ren 等 9 位作者
Robotics and Computer-Integrated Manufacturing · 2026