基于强化学习的固体氧化物燃料电池输出电压自抗扰控制研究
管超骏, 雷正玲, 霍海波, 王芳, 姚国全, 刘涛

Active Disturbance Rejection Control of Output Voltage of Solid Oxide Fuel Cell Based on Reinforcement Learning
Chaojun GUAN, Zhengling LEI, Haibo HUO, Fang WANG, Guoquan YAO, Tao LIU
表2 ADRC-TD3算法主要超参数
Tab. 2 Main hyperparameters of ADRC-TD3 algorithm
参数取值
折扣因子0.99
经验池大小2×106
Actor网络学习率0.001
Critic网络学习率0.000 1
样本学习个数128
训练步数4 000
软更新系数0.005
延迟更新参数2