发电技术, 2024, 45(6): 1163-1172 DOI: 10.12096/j.2096-4528.pgt.24017

新能源

基于强化学习的固体氧化物燃料电池输出电压自抗扰控制研究

管超骏1, 雷正玲1, 霍海波1, 王芳1, 姚国全2, 刘涛3

1.上海海洋大学工程学院,上海市 浦东新区 201306

2.高性能舰船技术教育部重点实验室(武汉理工大学),湖北省 武汉市 430063

3.上海海事大学交通运输学院,上海市 浦东新区 201306

Active Disturbance Rejection Control of Output Voltage of Solid Oxide Fuel Cell Based on Reinforcement Learning

GUAN Chaojun1, LEI Zhengling1, HUO Haibo1, WANG Fang1, YAO Guoquan2, LIU Tao3

1.College of Engineering Science and Technology, Shanghai Ocean University, Pudong New District, Shanghai 201306, China

2.Key Laboratory of High Performance Ship Technology of the Ministry of Education (Wuhan University of Technology), Wuhan 430063, Hubei Province, China

3.College of Transport and Communications, Shanghai Maritime University, Pudong New District, Shanghai 201306, China

收稿日期: 2024-01-22   修回日期: 2024-04-29  

基金资助: 国家自然科学基金项目.  52301420.  52071201
高性能舰船技术教育部重点实验室开放基金课题项目.  GXNC23052801
上海市地方院校能力建设计划项目.  23010502200

Received: 2024-01-22   Revised: 2024-04-29  

作者简介 About authors

管超骏(1994),男,硕士研究生,研究方向为燃料电池建模与跟踪控制,17621922877@163.com

雷正玲(1988),女,博士,讲师,研究方向为新能源动力系统建模与控制、基于深度学习方法的新能源功率预测等,本文通信作者,zllei@shou.edu.cn

姚国全(1987),男,硕士,实验师,研究方向为船舶水动力学、船舶性能试验技术、海洋智能装备建模与控制等,604617856@qq.com

刘涛(1988),男,博士,副教授,研究方向为人工智能、智能交通、大数据等,dlmult@hotmail.com

摘要

目的 为提升固体氧化物燃料电池(solid oxide fuel cell,SOFC)系统性能及寿命,以100 kW SOFC系统为研究对象,探究在保证输出电压跟踪性能的同时,通过强化学习不断调整控制器系数以实现最佳的综合性能。 方法 建立基于机理的SOFC输出电压系统模型,采用改进型的非线性自抗扰控制器(nonlinear active disturbance rejection control,NLADRC),通过控制输入燃气流量,使输出电压很好地跟踪参考值。考虑到传统的单通道控制器无法同时满足多个目标,但若采用双通道控制器则会导致系统复杂性、成本和故障风险增加,提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的改进型非线性自抗扰控制器,对非线性误差反馈控制律系数进行实时调节和优化。 结果 所设计控制器可在不违反燃料利用约束的情况下提高SOFC输出电压跟踪性能。 结论 所设计控制器具备适应性强、稳定性高和能克服不确定性等优点,为实际SOFC系统的输出电压控制器设计提供理论参考。

关键词: 固体氧化物燃料电池(SOFC) ; 双延迟深度确定性策略梯度(TD3) ; 非线性自抗扰控制器(NLADRC) ; 燃料利用率 ; 非线性误差反馈控制律 ; 输出电压跟踪 ; 不确定性

Abstract

Objectives In order to improve the performance and lifetime of solid oxide fuel cell (SOFC) systems, the 100 kW SOFC system was taken as the research object. The continuous adjustment of the controller coefficients was explored through reinforcement learning to realize the best comprehensive performance, while ensuring the output voltage tracking performance. Methods A mechanism-based SOFC output voltage system model was established, an improved nonlinear active disturbance rejection controller (NLADRC) was used to make the output voltage track the reference value well by controlling the input gas flow. Conventional single-channel controllers can only satisfy one objective at a time, and dual-channel controllers will increase system complexity, cost and risk of failure. An improved NLADRC controller based on the twin delayed deep deterministic policy gradient (TD3) was proposed to optimize the coefficients of nonlinear error feedback control law. Results The designed controller can improve SOFC output voltage tracking performance without violating fuel utilization constraints. Conclusions The designed controller has the advantages of strong adaptability, high stability, and the ability to overcome uncertainty, providing theoretical reference for designing output voltage controllers in practical SOFC systems.

Keywords: solid oxide fuel cell (SOFC) ; twin delayed deep deterministic policy gradient (TD3) ; nonlinear active disturbance rejection control (NLADRC) ; fuel utilization ; nonlinear error feedback control law ; output voltage tracking ; uncertainty

PDF (2618KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

管超骏, 雷正玲, 霍海波, 王芳, 姚国全, 刘涛. 基于强化学习的固体氧化物燃料电池输出电压自抗扰控制研究. 发电技术[J], 2024, 45(6): 1163-1172 DOI:10.12096/j.2096-4528.pgt.24017

GUAN Chaojun, LEI Zhengling, HUO Haibo, WANG Fang, YAO Guoquan, LIU Tao. Active Disturbance Rejection Control of Output Voltage of Solid Oxide Fuel Cell Based on Reinforcement Learning. Power Generation Technology[J], 2024, 45(6): 1163-1172 DOI:10.12096/j.2096-4528.pgt.24017

0 引言

固体氧化物燃料电池(solid oxide fuel cell,SOFC)是一种全固态能源转换装置,可直接将燃料气体和氧化剂气体所携带的化学能转化为电能。SOFC无需依赖昂贵的催化剂(如铂)即可运行,从而降低了成本。此外,由于其余热等级高,可以与燃气轮机、蒸汽轮机等集成到各种联合循环系统中,实现70%以上的综合利用效率[1-4]。因此,SOFC适合大规模应用,如中央发电站和热电联产系统。然而,这种类型的燃料电池也有缺点,如动态响应慢、非线性和严格的操作限制等问题[5-8]

当负载电流发生变化时,SOFC应自动调整输出电压,同时遵守燃料利用率阈值。在理想条件下,SOFC的燃料利用率应介于0.7~0.9[9]。低于或超出这个范围会导致燃料使用不足或过量。然而,大多数控制器设计都没有考虑到这些限制因素,这可能会导致SOFC性能下降,降低燃料电池寿命,甚至在燃料控制过程中破坏运行稳定性[10]。由此可见,SOFC控制的目的是通过调整燃料流量,使输出电压更平稳地接近参考值,同时将燃料利用率维持在理想范围内。

文献[11]提出SOFC的神经网络模型,采用神经模糊控制方法实现输出电压的精确控制,但因其采用单通道控制策略,使得燃料利用率约束未能满足。文献[12]采用改进萤火虫算法优化分数阶比例积分微分(proportional integral differential,PID)参数,算法优化后,PID控制器的抗干扰能力增强,提高了SOFC的运行可靠性,但其同样无法实现多约束目标。文献[13]采用一种由鲁棒控制器和PID控制器组成的多回路控制器,这种方法能实现在燃料利用约束前提下的稳定输出电压,但增加了系统的复杂性。文献[14]提出一种新的智能比例积分自适应滑动模态控制器(intelligent proportional integral adaptive sliding mode control,IPI-ASMC),并设计抗饱和补偿器,以处理不确定性和执行器饱和问题,但抗饱和控制器的存在限制了系统的动态性能。文献[15-16]采用了一种多智能体的控制方式,实现了电压的精确跟踪,满足了燃料利用率要求,但其控制结构复杂,存在优化失败的风险。

传统的单通道控制算法无法防止违反燃料利用率约束,导致SOFC性能显著下降和不稳定。然而,采用双通道控制器会增加系统复杂性、成本和故障风险。而对于纯粹的机器学习方法,其控制过程中存在的不确定性会导致优化失败的风险,使其在实际应用中面临挑战。

因此,迫切需要一种无模型最优控制算法,该算法不仅能够根据SOFC的状态调节燃料流量,同时还能够满足燃料利用约束和输出电压跟踪性能。自抗扰控制(active disturbance rejection control,ADRC)具有响应快、超调小、鲁棒性强、不依赖被控对象模型的特点[17]。而深度强化学习中的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient algorithm,TD3)算法可以在不需要识别系统内部结构的情况下以数据驱动的方式进行控制或优化,还可以在奖励函数的设计基础上兼顾考虑系统性能和操作约束[18]

本文结合TD3和ADRC的优点,提出了一种新型单通道控制算法,它可通过对当前SOFC运行状态的观测,实时调整改进型非线性ADRC控制器中非线性误差反馈控制律的增益,改变天然气流量,可在满足约束条件的同时提高控制性能,并在奖励函数的精心设计下使得优化算法迅速收敛。

1 SOFC机理模型的建立

SOFC系统的输出电压受到多种因素影响,若使用神经网络或数据驱动的方式建模,存在物理上可解释性较差、训练数据较大、难以优化模型等问题,故本文采用了基于机理的方法进行建模,模型结构如图1所示。该模型考虑了电化学和热力学原理[19]图1中,系统的操作变量是天然气流量qf,系统的受控变量是输出电压Vdc,外部负载电流I是干扰变量,其他详细参数含义见表1[20]

图1

图1   固体氧化物燃料电池模型结构

Fig. 1   Solid oxide fuel cell model structure


表1   SOFC系统参数取值

Tab. 1  Values for SOFC system parameters

参数数值
绝对温度T0/K1 273
法拉第常数F0/(C/mol96 485
通用气体常数R0/[J/(molK)]8.314
理想标准电位E0/V1.18
电池数N0384
常数Kr/[mol/(sA)]0.996×10-6
氢气的阀摩尔常数KH2/[mol/(sPa)]8.32×10-6
水蒸气的阀摩尔常数KH2O/[mol/(sPa)]2.77×10-6
氧气的阀摩尔常数KO2/[mol/(sPa)]2.49×10-6
氢气流响应时间τH2/s26.1
水的响应时间τH2O/s78.3
氧气流响应时间τO2/s2.91
燃料重整时间常数τf/s5
氢氧比τH-O1.145

新窗口打开| 下载CSV


SOFC输出电压Vdc可由下式计算:

Vdc=V0-ηohnic -ηconc -ηact 

式中:ηohnic 为欧姆极化电压损耗;ηact 为活化极化电压损耗;ηconc 为浓度极化电压损耗;V0为驱动电子在燃料电池中传输的电动势。

V0的值可由Nerst方程来计算:

V0=N0[E0+R0T02F0lnpH2pO2/101 325pH2O]

式中pH2pH2OpO2分别为氢气、水蒸气和氧气的分压,其表达式分别为:

pH2=1KH2(1+τH2s)(11+τfsqf-2KrI)
pO2=1KO2(1+τO2s)(1/τH-O1+τfsqf-KrI)
pH2O=2KH2O(1+τH2Os)KrI

式中Kr=N0/(4F0)

当SOFC工作时会产生电压损耗,其中最为主要的是欧姆极化电压损耗ηohnic 、活化极化电压损耗ηact 以及浓度极化电压损耗ηconc [21],分别表示如下:

ηohnic =Irohnic
ηact =α+βlnI
ηconc =-R0T02F0ln(1-IIL)

式中:rohnic为欧姆损耗;α为塔菲尔常数;β为塔菲尔斜率;IL为极限电流密度。

燃料利用率uf是非常重要的一个变量,定义为燃料电池中实际产生的化学能(电能)与输入燃料化学能之间的比例,其表达式为

uf=qH2rqH2in=2KrIqH2in

式中:qH2inqf经过燃料重整器后的氢气流量;qH2r为氢气流量的反应量,qH2r=qH2in-qH2outqH2out为未反应的氢气流量。

燃料利用率的理想范围为[0.7,0.9][20]。超出该范围的燃料利用将降低SOFC的性能或对其造成永久性损害。

当负载电流存在扰动时,为了使输出电压迅速达到设定条件,燃料利用率将急剧变化。而过于保守的控制策略又会使得动态过程缓慢,影响微电网稳定。

故控制器设计中的控制目标可总结为:考虑负载电流变化对SOFC输出电压的影响,调节燃料流量以精确追踪输出电压,实现更好的控制性能;确保SOFC系统的燃料利用率保持在理想范围内;保证SOFC输出电压的动态响应性能。

2 自抗扰控制器

2.1 二阶非线性ADRC

ADRC的基本思想是将影响被控对象的各种不确定因素视为未知扰动,并对其实时估计和补偿[22]。相较于线性ADRC,非线性ADRC具有更好的跟踪精度和响应速度。本文将二阶非线性ADRC控制器应用到固体氧化物燃料电池输出电压控制系统中,其系统控制结构框图如图2所示。

图2

图2   二阶非线性自抗扰控制器结构

Fig. 2   Structure of second-order nonlinear active disturbance rejection control


图2中:ref为设定值;b0为输入增益b的估计值;u为控制量(天然气的流量);y为系统的输出值;fal()为非线性函数;z1z2z3为状态变量的估计值;β01β02β03为增益系数。

ADRC方法并不依赖于特定的模型,其主要结构由3部分组成:跟踪-微分器(tracking differentiator,TD)、非线性状态误差反馈控制律(nonlinear state error feedback,NLSEF)和非线性扩张状态观测器(nonlinear extended state observer,NLESO)。首先应用跟踪-微分器对输入的参考电压进行跟踪和滤波,然后应用非线性扩张状态观测器对SOFC系统的不确定性、未建模动态、外部扰动和控制系数的不确定性进行观测,最后将两者的输出信号输送至非线性误差反馈控制律中,经运算后得到天然气流量信号qf

2.2 跟踪-微分器

跟踪-微分器的主要作用是快速、无超调地跟踪期望电压控制信号,获得其差分信号,并对控制信号滤波,以降低噪声、提高稳定性。其跟踪算法表示如下:

ye(k+1)=ye(k)+Tdy˙e(k)  y˙e(k+1)=y˙e(k)+Tdfhan()

式中:ye为期望跟踪电压;y˙e为期望跟踪电压的导数;Td为采样周期;fhan()为最速综合函数,表示为

fhan()=-rfa/d,         -rfsign(a),ada>d

其中:

a=y˙e+y0/h,                           y˙e+0.5(a0-d)sign(y0),ada>d
d=rfh                      d0=dh                      y0=ye+hy˙e             a0=d2+8rfy0

式中:rf为调整跟踪速度的速度因子;d为线性区间长度;h为采样步长,s。

2.3 非线性误差反馈控制律

非线性误差反馈控制律为非线性的比例-微分(proportional differential,PD)组合,其比例和微分控制参数可以在既定的变动范围内进行非线性组合,从而达到更高的控制要求。本文所采用的非线性函数命名为nfal(·)函数,与传统的fal(·)函数相比,能很好地解决原函数分段点导数不连续以及可能发生的高频颤振问题,其表达式为:

nfal()=3δα-αδα2δe+δα-αδα2δ3e3,|e|δsign(e)eαf,|e|>δ

式中:αf为非线性段控制系数;δ为线性区间长度;e为跟踪误差。

非线性误差反馈控制算法为

u0=β1nfal(e1,α1,δ)+β2nfal(e2,α2,δ)

式中:β1为比例系数;β2为微分系数;e1e2分别为z1、z2的跟踪误差;α1α2为非线性段控制系数。

2.4 非线性扩张状态观测器

ADRC控制器的核心是非线性扩张状态观测器,系统中的负载电流扰动、内部温度扰动、气体流量变化等外部状态变量被统一作为总扰动进行实时估计,并将结果引入非线性误差反馈控制律中实现在线补偿。非线性扩张状态观测器的主要算法表示如下:

e=z1(k)-y(k)z1(k+1)=z1(k)+h[z2(k)-β01e]z2(k+1)=z2(k)+h[z3(k)-β02nfale,α1,δ+bu]z3(k+1)=z3(k)-hβ03nfale,α2,δ

此时,若控制量设计为

uk=u0(k)-z3(k)b0

那么当z3的估计值与总扰动f误差足够小时,则系统的传递函数可以变为

y¨=f+bu=f+u0-z3u0

此时被控对象被转换成一个积分串联型对象,仅需利用非线性误差反馈控制律形成反馈,即可很好地满足系统的稳定性、准确性和快速性。

3 基于强化学习的自抗扰控制

3.1 双延迟深度确定性策略梯度算法

由于传统的单通道控制器无法同时保证电压跟踪精度和燃料利用率约束条件,本文采用ADRC与深度强化学习相结合,通过训练NLSEF中的β1β2,不断地改变天然气流量。

本文所选用的TD3算法[23]源自演员-评论家(actor-critic,AC)算法,主要用于解决连续控制问题的离线异策式深度强化学习方法,其整体网络结构[24-25]图3所示。TD3算法分为Actor策略网络、Critic评价网络以及TD-error三部分。Actor策略网络以SOFC的状态作为输入并根据系统参数输出动作。Critic评价网络接收当前状态和Actor策略网络输出的动作值作为输入,用于评价Actor策略网络输出动作值的优劣。

图3

图3   TD3算法结构

Fig. 3   TD3 algorithm structure


TD3算法共包含6个网络:Actor网络、Actor目标策略网络、2个独立的Critic网络以及2个独立的Critic目标网络。在Q值估计过程中选取较小的Q值,从而抑制过估问题。

Actor网络通过确定性策略梯度算法进行更新:

ϕJ(ϕ)=Es~pπaQπ(s,a)a=π(s)ϕπϕ(s)
Qπ(s,a)=Es~pπ,a~πRts,a

式中:为权重参数的梯度;J(ϕ)为策略πϕ的性能度量;Es~pπ为状态s下采用策略π所作出动作a时的预期收益;Qπ(s,a)为价值网络的状态动作价值;Rtt时刻的收益。

Critic网络和Critic目标策略网络的评估函数基于贝尔曼方程进行延迟学习:

Qπ(s,a)=r+γEs',a'[Qπ(s',a')],a'~π(s')

式中:r为收益;γ为折扣因子;(s',a')为下一时刻的状态和动作。

为缓解确定性策略中出现的估值函数过拟合问题,需在目标策略网络中加入高斯随机噪声:

y=r+γmin(Qθ1,Qθ2)[s',πϕ's'+ε]
εclip[N(0,σ),-c,c],c>0

式中:ε为高斯噪声;c为策略平滑噪声的截断边界值;σ为标准差;clip函数为截断函数;Qθ1Qθ2分别为θ1θ2的价值函数。

为了保证在策略更新前将估计误差降低,策略网络的更新频率应该低于评估网络,所以采用一种软更新策略:

θi=τθi+(1-τ)θi'
ϕ'=τϕ+(1-τ)ϕ'

式中:τ为软更新率;θi为上一个价值函数的参数;θi'为更新后价值函数的参数;ϕ为上一个策略函数的参数;ϕ'为更新后策略函数的参数。

3.2 ADRC-TD3控制器设计

基于双延迟深度确定性策略梯度算法的自抗扰控制器(ctive disturbance rejection control-twin delayed deep deterministic policy gradient algorithm,ADRC-TD3)总体控制策略框架如图4所示。控制器的系数调节间隔为0.01 s,控制目标是通过调节燃料流量稳定参考输出电压,同时将SOFC的燃料利用率保持在合理的范围内。

图4

图4   ADRC-TD3总体控制策略框架

Fig. 4   Structure framework of ADRC-TD3 overall control


本文所设计ADRC-TD3控制器通过调整β1β2系数来控制SOFC的输出电压。而动作空间、状态空间和奖励函数的选取作为任务的重要组成部分,会直接影响TD3算法的学习和决策过程,需要精心设计。

3.2.1 动作空间

动作空间的选取为:

a=[β1/10β2/10]T-10β110-10β210

3.2.2 状态空间

状态空间的选取为

[e(t)  0te(t)dt  Vdc(t)  uf(t)  u˙f(t)]T

式中:e(t)为跟踪误差;Vdc(t)为系统输出电压。将燃料利用率uf(t)及其导数u˙f(t)引入状态空间,可以让智能体更好地将燃料利用率控制在理想范围内。

3.2.3 奖励函数设计

本文对奖励函数的设计主要考虑跟踪误差、燃料利用率是否超出理想范围、天然气流量的波动及停止训练轮次条件。其中:

r1=-μ1e(t)+1,-μ2tanh(e(t)-0.1),e(t)0.1e(t)>0.1
r2=0.1,-5,0.7uf0.9uf<0.7  uf>0.9
r3=-μ3i=04ufi-ufaug
ufaug=15i=04ufi
r=r1+r2+r3-χ

式中:μ1μ2μ3为惩罚系数;χ为超出SOFC运行条件时的惩罚;r1为跟踪误差惩罚项;r2为燃料利用率超出惩罚项;r3为天然气流量波动惩罚项。

r1的设定可以使误差产生时,系统能够快速地响应以消除误差。而当系统响应时间加大时会导致r1的累计惩罚增大,从而引导智能体不断提升系统的响应速度。r2的设定使得智能体在满足燃料利用率约束时获得一个较小的奖励,而超出范围时能够快速响应。r3使得智能体能够对天然气流量的波动快速响应以减小执行器负担。

4 SOFC仿真实验

4.1 仿真参数

为验证本文所设计控制器的性能,将经精细手动调参的ADRC切换型控制器作为基准策略,针对ADRC-TD3,开展输出电压跟踪性能和燃料利用率约束性能的对比仿真研究。

ADRC-TD3算法主要超参数见表2

表2   ADRC-TD3算法主要超参数

Tab. 2  Main hyperparameters of ADRC-TD3 algorithm

参数取值
折扣因子0.99
经验池大小2×106
Actor网络学习率0.001
Critic网络学习率0.000 1
样本学习个数128
训练步数4 000
软更新系数0.005
延迟更新参数2

新窗口打开| 下载CSV


4.2 预训练

本节预训练数据的来源为SOFC输出电压模型在不同的输入下所产生的不同状态。为了确保所获得的样本具有足够的随机性和多样性,在每轮训练开始时的给定跟踪电压会有±1 V间的随机波动,并在每次训练过程中随机加入一次随机大小的给定跟踪电压信号和一次随机大小的负载电流阶跃扰动信号,每轮训练40 s。实际的训练结果如图5所示。

图5

图5   ADRC-TD3算法调节过程奖励

Fig. 5   ADRC-TD3 algorithm adjustment process reward


可以看到,在前100轮次训练中,智能体通过不断尝试使得平均奖励不断上升;当训练轮次达到150次时不再出现训练失败的情况;当训练轮次达到400时,平均奖励基本收敛,达到停止条件。经过训练后的智能体能够根据环境的改变自适应地调整自抗扰控制器中β1β2,实现燃料利用约束前提下的稳定输出电压。

4.3 给定电压信号跟踪实验

基准策略ADRC切换型控制器的手调参数为β1=1.1β2=2,且将基准策略和ADRC-TD3中非线性扩张状态观测器增益系数均取为[β01,β02,β03]=[100,800,300]

为验证两者的给定电压跟踪能力,分别在t=5 st=20 st=35 s加入3次给定电压阶跃变化:

Vref=333,338,343,338,t<55t<2020t<35t35

给定电压信号跟踪实验仿真结果对比如图6所示。可见,2种方法都能很好地跟踪给定电压,并实现燃料利用率约束限制。不同的是,采用ADRC-TD3方法时完全不会发生燃料利用率约束违反现象,而切换型ADRC控制策略由于先发生违反现象再进行切换控制,所以存在违反时间,且由于切换控制的存在,基准策略对于电压的跟踪存在一定的超调。

图6

图6   给定电压信号跟踪实验仿真结果对比

Fig. 6   Comparison of simulation results of given voltage signal tracking experiments


4.4 负载电流扰动实验

为验证本文所设计控制器对于负载电流的抗扰性能,本文设计在t=10 s时发生一次幅值为7 V的给定电压阶跃变化,在t=40,60,80 s共发生3次大小为正负40 A的阶跃扰动。负载电流扰动实验仿真结果对比如图7所示。

图7

图7   负载电流扰动实验仿真结果对比

Fig. 7   Comparison of simulation results for load current disturbance experiments


图7可见,随着给定跟踪电压的增大,控制过程中燃料利用率更容易超出理想范围,导致基准策略在控制过程中发生1 V超调。而本文所设计ADRC-TD3控制器的控制律平滑,能快速跟踪给定参考电压且不存在超调现象,对于负载电流扰动的抑制也能很好实现,对燃料利用率的控制优于ADRC切换型控制策略。

5 结论

针对传统双通道控制器结构复杂,且单通道控制器难以满足多约束条件下控制的现状,研究了一种基于双延迟深度确定性策略梯度的改进型非线性自抗扰控制器。通过双延迟深度确定性策略梯度算法对误差控制律系数的训练来满足对燃料利用率的约束以及输出电压的跟踪控制。通过仿真分析,得出以下结论:

1)与基准控制策略相比,所提出的控制策略具有更好的综合性能。其动态响应过程无超调,调节时间短,天然气流量波动较小,在负载电流扰动下能够以更快的速度精确跟踪给定电压。

2)通过对状态空间和奖励函数的精心设计,使得算法收敛迅速,降低了训练所需的时间成本,实现了单通道控制器满足多约束条件的控制目标。

3)与基准控制策略相比,所提出的控制策略需整定参数数量减少,降低了人工调整参数的难度,为实际SOFC系统的输出电压控制器设计提供了理论参考。

参考文献

YANG BLI YLI Jet al

Comprehensive summary of solid oxide fuel cell control:a state-of-the-art review

[J].Protection and Control of Modern Power Systems,20227(3):1-31doi:10.1186/s41601-022-00251-0

[本文引用: 1]

NECHACHE AHODY S

Alternative and innovative solid oxide electrolysis cell materials:a short review

[J].Renewable and Sustainable Energy Reviews,2021149111322doi:10.1016/j.rser.2021.111322

郭心如郭雨旻罗方

磷酸燃料电池的能效、㶲及生态特性分析

[J].发电技术,202243(1):73-82

GUO X RGUO Y MLUO Fet al

Analysis of energy,exergy and ecology characteristics of phosphoric acid fuel cell

[J].Power Generation Technology,202243(1):73-82

和萍祁盼申润杰

计及风电和燃料电池的综合能源系统阻尼特性分析

[J].电力科学与技术学报,202035(1):14-23

[本文引用: 1]

HE PQI PSHEN R Jet al

Analysis of damping characteristics of an integrated energy system with hybrid wind-fuel cells integrated

[J].Journal of Electric Power Science and Technology,202035(1):14-23

[本文引用: 1]

LAN TSTRUNZ K

Multiphysics transients modeling of solid oxide fuel cells:methodology of circuit equivalents and use in EMTP-type power system simulation

[J].IEEE Transactions on Energy Conversion,201732(4):1309-1321doi:10.1109/TEC.2017.2687886

[本文引用: 1]

BAO CWANG YFENG Det al

Macroscopic modeling of solid oxide fuel cell (SOFC) and model-based control of SOFC and gas turbine hybrid system

[J].Progress in Energy and Combustion Science,20186683-140doi:10.1016/j.pecs.2017.12.002

张瑞宇王雨晴任佳伟

基于丙烷催化部分氧化的微管式固体氧化物燃料电池系统特性研究

[J].发电技术,202445(3):486-493

ZHANG R YWANG Y QREN J W

Characteristics research of a micro-tubular solid oxide fuel cell system based on catalytic partial oxidation of propane

[J].Power Generation Technology,202445(3):486-493

李林刘彤宇李爽

甲醇重整制氢燃料电池发电研究进展

[J].发电技术,202243(1):44-53doi:10.12096/j.2096-4528.pgt.21116

[本文引用: 1]

LI LLIU T YLI Set al

Research progress of hydrogen production by methanol reforming for fuel cell power generation

[J].Power Generation Technology,202243(1):44-53doi:10.12096/j.2096-4528.pgt.21116

[本文引用: 1]

KOMATSU YBRUS GKIMIJIMA Set al

The effect of overpotentials on the transient response of the 300 W SOFC cell stack voltage

[J].Applied Energy,2014115352-359doi:10.1016/j.apenergy.2013.11.017

[本文引用: 1]

SUN LJIN YSHEN Jet al

Sustainable residential micro-cogeneration system based on a fuel cell using dynamic programming-based economic day-ahead scheduling

[J].ACS Sustainable Chemistry & Engineering,20219(8):3258-3266doi:10.1021/acssuschemeng.0c08725

[本文引用: 1]

王倩如王彩霞顾吉鹏

固体氧化物燃料电池的神经模糊控制策略研究

[J].热能动力工程,202237(10):198-206doi:10.1016/j.apenergy.2021.118214

[本文引用: 1]

WANG Q RWANG C XGU J P

Study on neural fuzzy control strategy of solid oxide fuel cell

[J].Journal of Engineering for Thermal Energy and Power,202237(10):198-206doi:10.1016/j.apenergy.2021.118214

[本文引用: 1]

ZHANG TLI HTU Xet al

Optimization of SOC fractional PID control parameters for solid oxide battery based on improved firefly algorithm

[C]//2021 3rd International Conference on Industrial Artificial Intelligence (IAI)Shenyang,ChinaIEEE20211-5doi:10.1109/iai53119.2021.9619450

[本文引用: 1]

WU XGAO D

Optimal robust control strategy of a solid oxide fuel cell system

[J].Journal of Power Sources,2018374225-236doi:10.1016/j.jpowsour.2017.10.070

[本文引用: 1]

ABBAKER A OWANG HTIAN Y

Voltage control of solid oxide fuel cell power plant based on intelligent proportional integral-adaptive sliding mode control with anti-windup compensator

[J].Transactions of the Institute of Measurement and Control,202042(1):116-130doi:10.1177/0142331219867779

[本文引用: 1]

LI JYU TYANG B

A data-driven output voltage control of solid oxide fuel cell using multi-agent deep reinforcement learning

[J].Applied Energy,2021304117541doi:10.1016/j.apenergy.2021.117541

[本文引用: 1]

LI JYU T

A novel data-driven controller for solid oxide fuel cell via deep reinforcement learning

[J].Journal of Cleaner Production,2021321128929doi:10.1016/j.jclepro.2021.128929

[本文引用: 1]

HAN J

From PID to active disturbance rejection control

[J].IEEE Transactions on Industrial Electronics,200956(3):900-906doi:10.1109/tie.2008.2011621

[本文引用: 1]

ZHOU JXUE SXUE Yet al

A novel energy management strategy of hybrid electric vehicle via an improved TD3 deep reinforcement learning

[J].Energy,2021224120118doi:10.1016/j.energy.2021.120118

[本文引用: 1]

PADULLES JAULT G WMCDONALD J R

An integrated SOFC plant dynamic model for power systems simulation

[J].Journal of Power sources,200086(1/2):495-500doi:10.1016/s0378-7753(99)00430-9

[本文引用: 1]

SUN LHUA QSHEN Jet al

A combined voltage control strategy for fuel cell

[J].Sustainability,20179(9):1517doi:10.3390/su9091517

[本文引用: 2]

LI YSHEN JLU J

Constrained model predictive control of a solid oxide fuel cell based on genetic optimization

[J].Journal of Power Sources,2011196(14):5873-5880doi:10.1016/j.jpowsour.2011.03.010

[本文引用: 1]

ZHAO CLI D

Control design for the SISO system with the unknown order and the unknown relative degree

[J].ISA Transactions,201453(4):858-872doi:10.1016/j.isatra.2013.10.001

[本文引用: 1]

LADOSZ PWENG LKIM Met al

Exploration in deep reinforcement learning:a survey

[J].Information Fusion,2022851-22doi:10.1016/j.inffus.2022.03.003

[本文引用: 1]

FUJIMOTO SVAN HOOF HMEGER D

Addressing function approximation error in actor-critic methods

[J].Proceedings of the 35th International Conference on Machine Learning,2018801587-1596

[本文引用: 1]

NGUYEN T TNGUYEN N DNAHAVANDI S

Deep reinforcement learning for multiagent systems:a review of challenges,solutions,and applications

[J].IEEE Transactions on Cybernetics,202050(9):3826-3839doi:10.1109/tcyb.2020.2977374

[本文引用: 1]

/