LOCOMOTION开放获取
弥合差距:实现高性能腿式运动的软演员-评论家算法
Gianluca Sabatini, Chenhao Li, Marco Hutter
2026
摘要
本文揭示了软演员-评论家(SAC)算法在大规模并行训练中性能不如近端策略优化(PPO)的根本原因,并提出了策略初始化、超时感知评论家目标及多步回报估计等针对性改进,使得SAC在多种腿式机器人平台上完全弥合了与PPO的性能差距。
关键词
Soft Actor-Criticlegged locomotionsim-to-realsample efficiencyreinforcement learning
相关论文
MANIPULATION
📊 0 引用
PAEAR:基于强化学习的点云区域探索与主动识别方法用于机器人焊接
Yong Tao, Donghua Tan, Fan Ren 等 9 位作者
Robotics and Computer-Integrated Manufacturing · 2026
MANIPULATION
📊 0 引用
基于因果强化学习的薄壁零件变形控制多道次切削参数优化
Fengyi Lu, Guanghui Zhou, Chao Zhang 等 5 位作者
Robotics and Computer-Integrated Manufacturing · 2026
LOCOMOTION
📊 0 引用
仿生水下机器人:材料、设计、控制与应用进展
Dilip Muchhala, Pramod Kumar Maurya, Adarsh Raut 等 6 位作者
Robotics and Autonomous Systems · 2026
LOCOMOTION
📊 0 引用
基于非线性滑模模型预测控制与自适应跟随转向及动静态约束的六轮独立驱动/四轮独立转向无人地面车辆轨迹跟踪控制
Shengyang Lu, Guanpeng Chen, Lijing Zhao 等 5 位作者
Robotics and Autonomous Systems · 2026