基于强化学习的新型电力系统优化策略应用综述

doi:10.12096/j.2096-4528.pgt.24227

发电技术 ›› 2025, Vol. 46 ›› Issue (3): 508-520.DOI: 10.12096/j.2096-4528.pgt.24227

• AI在新型电力系统中的应用 • 上一篇

基于强化学习的新型电力系统优化策略应用综述

闫正义, 赵康, 王凯

青岛大学电气工程学院，山东省青岛市 266071

收稿日期:2024-10-22 修回日期:2025-01-19 出版日期:2025-06-30 发布日期:2025-06-16
通讯作者: 王凯
作者简介:闫正义(1998)，男，硕士研究生，研究方向为锂电池荷电状态估计，zzxx1998111@163.com；
赵康(2000)，男，硕士研究生，研究方向为锂电池剩余寿命估计，mailboxofzk@163.com；
王凯(1985)，男，博士，教授，研究方向为分布式微电网和储能技术、新能源储能技术、能源互联网等，本文通信作者，wangkai@qdu.edu.cn。
基金资助:
国家自然科学基金项目(12374088);山东省高等学校青年创新技术项目(2022KJ139)

Review of Application on Optimization Strategies for New-Type Power System Based on Reinforcement Learning

Zhengyi YAN, Kang ZHAO, Kai WANG

College of Electrical Engineering, Qingdao University, Qingdao 266071, Shandong Province, China

Received:2024-10-22 Revised:2025-01-19 Published:2025-06-30 Online:2025-06-16
Contact: Kai WANG
Supported by:
National Natural Science Foundation of China(12374088);Youth Innovation Technology Project of Higher School in Shandong Province(2022KJ139)

摘要/Abstract

摘要：

目的随着电力系统向更高程度的智能化和自动化演进，强化学习(reinforcement learning，RL)作为人工智能领域的一项关键技术，在电力领域的智能化发展方向上展现出广阔前景。完善RL在电力领域的应用研究方案，对于深入挖掘其在电力系统运行、控制和优化等方面的潜力至关重要。为此，分析了RL在实际电气应用中的效能表现，并展望了未来可能的研究方向，以期为电力系统智能化进程提供助力。方法对RL在各类电气领域的关键应用进行了综述。系统性地介绍了RL的基本原理和标志性算法，详细探讨这些算法如何被应用于新型电力系统领域的实际问题中。对各研究中主流的RL算法进行归类，并对在这些算法中进行的结构化改进进行优缺点分析。结果相比于传统算法，RL显著提升了新型电力系统的智能化水平，并在多个应用场景中取得了显著成效，特别是在应对系统复杂性和不确定性方面表现出色。然而，尽管有诸多成功案例，但目前该领域仍存在一些亟待解决的问题，比如计算成本高、训练时间长、泛化能力不足等。结论 RL为新型电力系统的智能化提供了新的解决方案，然而，要实现大规模应用，还需要克服一系列技术和实践上的挑战。研究成果可为电气工程领域的研究者和实践者提供参考和启示。

关键词: 新型电力系统, 强化学习(RL), 深度强化学习(DRL), 智能电网, 优化策略, 能源管理, 态势感知, 优化调度, 人工智能(AI)

Abstract:

Objectives As power systems evolve toward higher levels of intelligence and automation, reinforcement learning (RL), a key technology in artificial intelligence, shows great potential in the intelligent development of the power sector. Enhancing research methods for RL applications is crucial for fully exploring its potential in power system operation, control, and optimization. Therefore, the performance of RL in practical electrical applications is analyzed, and the possible research directions in the future are prospected, so as to provide assistance for the intelligent transformation of power systems. Methods This study provides a systematic review of RL applications across diverse fields of electrical engineering. It systematically introduces the fundamental principles and landmark algorithms of RL, detailing how these algorithms are applied to address practical problems in new-type power system. The study categorizes mainstream RL algorithms in current research and analyzes the advantages and disadvantages of structural improvements made to these algorithms. Results Compared to traditional algorithms, RL significantly enhances the intelligence level of new-type power system. It achieves remarkable success in various application scenarios, particularly in addressing system complexity and uncertainty. However, despite many successful cases, several urgent issues still exist in this sector, such as high computational costs, long training times, and limited generalization abilities. Conclusions Reinforcement learning provides novel solutions for the intelligent development of new-type power system. However, achieving large-scale application still needs to overcome a series of technical and practical challenges. This study provides references and insights for researchers and practitioners in electrical engineering.

Key words: new-type power system, reinforcement learning (RL), deep reinforcement learning (DRL), intelligent grid, strategy optimization, energy management, situational awareness, optimized scheduling, artificial intelligence (AI)

中图分类号:

TK 01

闫正义, 赵康, 王凯. 基于强化学习的新型电力系统优化策略应用综述[J]. 发电技术, 2025, 46(3): 508-520.

Zhengyi YAN, Kang ZHAO, Kai WANG. Review of Application on Optimization Strategies for New-Type Power System Based on Reinforcement Learning[J]. Power Generation Technology, 2025, 46(3): 508-520.

图/表 4

参考文献 67

1	许洪华，邵桂萍，鄂春良，等．我国未来能源系统及能源转型现实路径研究[J]．发电技术，2023，44(4)：484-491． doi:10.12096/j.2096-4528.pgt.23002
	XU H H， SHAO G P， E C L，et al ．Research on China’s future energy system and the realistic path of energy transformation[J]．Power Generation Technology，2023，44(4)：484-491． doi:10.12096/j.2096-4528.pgt.23002
2	马晓伟，王文倬，薛晨，等．西北新型电力系统先行示范体系探究[J]．电网与清洁能源，2024，40(1)：1-7．
	MA X W， WANG W Z， XUE C，et al ．Research on the leading demonstration system of new-type power system in northwest China[J]．Power System and Clean Energy，2024，40(1)：1-7．
3	周翔，王继业，陈盛，等．基于深度强化学习的微网优化运行综述[J]．全球能源互联网，2023，6(3)：240-257．
	ZHOU X， WANG J Y， CHEN S，et al ．Review of microgrid optimization operation based on deep reinforcement learning[J]．Journal of Global Energy Interconnection，2023，6(3)：240-257．
4	冯斌，胡轶婕，黄刚，等．基于深度强化学习的新型电力系统调度优化方法综述[J]．电力系统自动化，2023，47(17)：187-199．
	FENG B， HU Y J， HUANG G，et al ．Review on optimization methods for new power system dispatch based on deep reinforcement learning[J]．Automation of Electric Power Systems，2023，47(17)：187-199．
5	彭道刚，税纪钧，王丹豪，等．“双碳”背景下虚拟电厂研究综述[J]．发电技术，2023，44(5)：602-615．
	PENG D G， SHUI J J， WANG D H，et al ．Review of virtual power plant under the background of “dual carbon”[J]．Power Generation Technology，2023，44(5)：602-615．
6	吕小红，刘维，刘克恒，等．虚拟电厂供需侧双层协调自适应鲁棒优化调度[J]．全球能源互联网，2024，7(4)：431-442．
	LYU X H， LIU W， LIU K H，et al ．Two-layer coordinated adaptive robust optimal scheduling on supply and demand side of virtual power plant[J]．Journal of Global Energy Interconnection，2024，7(4)：431-442．
7	吴垠，牛文娟，诸晓骏．考虑不同场景的虚拟电厂建模与优化分析[J]．电测与仪表，2024，61(11)：40-45．
	WU Y， NIU W J， ZHU X J ．Modeling and optimization analysis of virtual power plantconsidering different scenarios[J]．Electrical Measurement & Instrumentation，2024，61(11)：40-45．
8	张艺，刘蕊．考虑不确定性风险的虚拟电厂优化调度模型研究[J]．智慧电力，2024，52(8)：9-18．
	ZHANG Y， LIU R ．Virtual power plant optimal scheduling model considering uncertain risks[J]．Smart Power，2024，52(8)：9-18．
9	于艾清，濮梦燕，王育飞，等．基于改进鲸鱼算法的分布式电源规划方法[J]．电测与仪表，2024，61(8)：63-69．
	YU A Q， PU M Y， WANG Y F，et al ．Planning method for distributed generation based on improved WOA[J]．Electrical Measurement & Instrumentation，2024，61(8)：63-69．
10	凡鹏飞，李宝琴，侯江伟，等．配电网分布式电源经济可承载力评估[J]．中国电力，2024，57(7)：196-202．
	FAN P F， LI B Q， HOU J W，et al ．Economic capacity assessment of renewables in distribution networks[J]．Electric Power，2024，57(7)：196-202．
11	王辉，王勇，张晓滨，等．构网型分布式电源渗透率高的微电网潮流计算及优化控制[J]．电网与清洁能源，2024，40(4)：35-43．
	WANG H， WANG Y， ZHANG X B，et al ．Power flow calculation and optimization control of the microgrid with high penetration of grid-forming distributed generators[J]．Power System and Clean Energy，2024，40(4)：35-43．
12	李杰，王杰，梁文腾，等．含逆变型分布式电源的负荷模型构建及参数辨识方法[J]．南方能源建设，2024，11(6)：164-173．
	LI J， WANG J， LIANG W T，et al ．Load model construction and parameter identification method of inverter-interfaced distributed generator[J]．Southern Energy Construction，2024，11(6)：164-173．
13	冯弋舟，吴志，李新煜，等．光-蓄-储混合储能系统灵活性提升与容量规划[J]．电力工程技术，2024，43(5)：27-36．
	FENG Y Z， WU Z， LI X Y，et al ．Capacity optimization and flexibility enhancement of photovoltaic-battery-pumped hybrid storage system[J]．Electric Power Engineering Technology，2024，43(5)：27-36．
14	孙婉玉，蒋天茁，付强，等．谷电储能供暖系统优化设计方法[J]．电力科技与环保，2024，40(3)：286-295．
	SUN W Y， JIANG T Z， FU Q，et al ．Optimization design method of valley power energy storage heating system[J]．Electric Power Technology and Environmental Protection，2024，40(3)：286-295．
15	王育飞，张新宇，张文韬，等．考虑调频死区的电池储能系统自适应频率控制策略[J]．智慧电力，2024，52(8)：33-41．
	WANG Y F， ZHANG X Y， ZHANG W T，et al ．Adaptive frequency control strategy of battery energy storage system considering frequency regulation dead band[J]．Smart Power，2024，52(8)：33-41．
16	史宏思，孙新伟，王凯．基于电化学阻抗谱的锂离子电池健康状态估计[J/OL]．发电技术，2024：1-15．(2024-07-19)[2024-08-22]．．
	SHI H S， SUN X W， WANG K ．Estimation of health state of lithium ion battery based on electrochemical impedance spectroscopy[J/OL]．China Industrial Economics，2024：1-15．(2024-07-19)[2024-08-22]．．
17	张效伟，衣振晓，王凯．基于改进自适应蜜獾优化算法优化时间卷积网络的车载锂离子电池健康状态估计[J/OL]．发电技术，2024：1-13．(2024-07-22)[2024-08-22]．．
	ZHANG X W， YI Z X， WANG K ．Health state estimation of vehicle-mounted lithium-ion battery based on improved adaptive honey badger optimization algorithm to optimize time convolution network[J/OL]．China Industrial Economics，2024：1-13．(2024-07-22)[2024-08-22]．．
18	黄河，王燕，姜念，等．考虑用户诉求差异的居民可控负荷资源优化控制[J]．发电技术，2023，44(6)：896-908．
	HUANG H， WANG Y， JIANG N，et al ．Optimal control of residents’ controllable load resources considering different demands of users[J]．Power Generation Technology，2023，44(6)：896-908．
19	何云华，程宇航，袁晓冬，等．面向V2G调度的可信联邦学习方法[J]．分布式能源，2024，9(6)：65-74．
	HE Y H， CHENG Y H， YUAN X D，et al ．Trustworthy federated learning approach for V2G scheduling[J]．Distributed Energy，2024，9(6)：65-74．
20	马继洋，蔡永翔，唐巍，等．考虑电动汽车参与韧性提升的配电网状态平滑切换控制策略[J]．电力建设，2024，45(5)：29-36．
	MA J Y， CAI Y X， TANG W，et al ．Enhancing distribution network resilience：electric vehicle integration in seamless state switching strategy[J]．Electric Power Construction，2024，45(5)：29-36．
21	朱永胜，常稳，武东亚，等．考虑充放储一体站与电动汽车互动的主从博弈优化调度策略[J]．电力系统保护与控制，2024，52(7)：157-167．
	ZHU Y S， CHANG W， WU D Y，et al ．A Stackelberg game optimization scheduling strategy considering the interaction between a charging-discharging-storage integrated station and an electric vehicle[J]．Power System Protection and Control，2024，52(7)：157-167．
22	吕志鹏，宋振浩，李立生，等．含电动汽车的工业园区综合能源系统优化调度[J]．中国电力，2024，57(4)：25-31．
	LV Z P， SONG Z H， LI L S，et al ．Optimization scheduling of integrated energy system scheduling in industrial park containing electric vehicles[J]．Electric Power，2024，57(4)：25-31．
23	高源，王凯．新能源汽车电驱逆变器故障锁存保护电路研究[J]．青岛大学学报(工程技术版)，2023，38(4)：105-110．
	GAO Y， WANG K ．Study on electric vehicle inverter system fault latch and protection circuit[J]．Journal of Qingdao University (Engineering & Technology Edition)，2023，38(4)：105-110．
24	PERERA A T D， KAMALARUBAN P ．Applications of reinforcement learning in energy systems[J]．Renewable and Sustainable Energy Reviews，2021，137：110618． doi:10.1016/j.rser.2020.110618
25	CHEN X， QU G N， TANG Y J，et al ．Reinforcement learning for selective key applications in power systems：recent advances and future challenges[J]．IEEE Transactions on Smart Grid，2022，13(4)：2935-2958． doi:10.1109/tsg.2022.3154718
26	尚玉朝，刘春豪，王凯．基于融合优化算法的超级电容器健康状态预测模型[J/OL]．发电技术，1-11[2025-02-19]．． doi:10.2139/ssrn.5114211
	SHANG Y Z， LIU C H， WANG K，et al ．A state of health prediction model for supercapacitors based on an integrated optimization algorithm[J/OL]．Power Generation Technology，1-11[2025-02-19]．． doi:10.2139/ssrn.5114211
27	ZHANG Z D， ZHANG D X， QIU R C ．Deep reinforcement learning for power system applications：an overview[J]．CSEE Journal of Power and Energy Systems，2020，6(1)：213-225．
28	VÁZQUEZ-CANTELI J R， NAGY Z ．Reinforcement learning for demand response：a review of algorithms and modeling techniques[J]．Applied Energy，2019，235：1072-1089． doi:10.1016/j.apenergy.2018.11.002
29	JORDEHI A R ．Optimisation of demand response in electric power systems：a review[J]．Renewable and Sustainable Energy Reviews，2019，103：308-319． doi:10.1016/j.rser.2018.12.054
30	YANG J J， YANG M， WANG M X，et al ．A deep reinforcement learning method for managing wind farm uncertainties through energy storage system control and external reserve purchasing[J]．International Journal of Electrical Power & Energy Systems，2020，119：105928． doi:10.1016/j.ijepes.2020.105928
31	CHEN T Y， BU S R， LIU X，et al ．Peer-to-peer energy trading and energy conversion in interconnected multi-energy microgrids using multi-agent deep reinforcement learning[J]．IEEE Transactions on Smart Grid，2022，13(1)：715-727． doi:10.1109/tsg.2021.3124465
32	韦贵熙，刘香港，池明，等．基于多智能体强化学习的微电网能源交易[J]．控制工程，2023，30(12)：2274-2279．
	WEI G X， LIU X G， CHI M，et al ．Energy trading in microgrid via multi-agent reinforcement learning[J]．Control Engineering of China，2023，30(12)：2274-2279．
33	张兴平，王腾，张馨月，等．基于多智能体深度确定策略梯度算法的火力发电商竞价策略[J]．中国电力，2024，57(11)：161-172．
	ZHANG X P， WANG T， ZHANG X Y，et al ．Bidding strategy for thermal power generation companies based on multi-agent deep deterministic policy gradient algorithm[J]．Electric Power，2024，57(11)：161-172．
34	许丹，胡晓静，胡斐，等．基于深度强化学习的电力市场量价组合竞价策略[J]．电网技术，2024，48(8)：3278-3286．
	XU D， HU X J， HU F，et al ．Strategic bidding of price-quantity pairs in electricity market based on deep reinforcement learning[J]．Power System Technology，2024，48(8)：3278-3286．
35	陈思畏，李建军，邹信迅，等．基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度[J]．现代电力，2025，42(2)：314-321．
	CHEN S W， LI J J， ZOU X X，et al ．Low-carbon economic dispatch of electro-thermal coupling system based on DDPG reinforcement learning with twin delays[J]．China Industrial Economics，2025，42(2)：314-321．
36	LU R Z， HONG S H， ZHANG X F ．A dynamic pricing demand response algorithm for smart grid：Reinforcement learning approach[J]．Applied Energy，2018，220：220-230． doi:10.1016/j.apenergy.2018.03.072
37	李锦辉，吴毓峰，余涛，等．数据孤岛下基于联邦学习的用户电价响应刻画及其应用[J]．电力系统保护与控制，2024，52(6)：164-176．
	LI J H， WU Y F， YU T，et al ．Characterization of user price response behavior and its application based on federated learning considering a data island[J]．Power System Protection and Control，2024，52(6)：164-176．
38	陈潇潇，周云海，张泰源，等．基于深度强化学习的有源配电网实时电压控制策略[J]．三峡大学学报(自然科学版)，2024，46(1)：76-84．
	CHEN X X， ZHOU Y H， ZHANG T Y，et al ．Strategy of real-time voltage control in active distribution network based on deep reinforcement learning[J]．Journal of China Three Gorges University (Natural Sciences)，2024，46(1)：76-84．
39	YANG Q L， WANG G， SADEGHI A，et al ．Two-timescale voltage control in distribution grids using deep reinforcement learning[J]．IEEE Transactions on Smart Grid，2020，11(3)：2313-2323． doi:10.1109/tsg.2019.2951769
40	张华强，牟晨东，赵玫，等．基于强化学习的多光储虚拟同步机频率协调控制策略[J]．电气传动，2021，51(19)：36-42．
	ZHANG H Q， MU C D， ZHAO M，et al ．Frequency coordination control strategy of multiple photovoltaic-battery virtual synchronous generators based on reinforcement learning[J]．Electric Drive，2021，51(19)：36-42．
41	姚建华，胡晟，王冠，等．基于强化学习的孤岛微电网多源协调频率控制方法[J]．电力建设，2020，41(9)：69-75．
	YAO J H， HU S， WANG G，et al ．Multi-source coordinated frequency control method based on reinforcement learning for island microgrid[J]．Electric Power Construction，2020，41(9)：69-75．
42	刘俊峰，陈剑龙，王晓生，等．基于深度强化学习的微能源网能量管理与优化策略研究[J]．电网技术，2020，44(10)：3794-3803．
	LIU J F， CHEN J L， WANG X S，et al ．Energy management and optimization of multi-energy grid based on deep reinforcement learning[J]．Power System Technology，2020，44(10)：3794-3803．
43	ZHAO H， ZHAO J H， QIU J，et al ．Cooperative wind farm control with deep reinforcement learning and knowledge-assisted learning[J]．IEEE Transactions on Industrial Informatics，2020，16(11)：6912-6921． doi:10.1109/tii.2020.2974037
44	LI Y， WANG R N， LI Y Z，et al ．Wind power forecasting considering data privacy protection：a federated deep reinforcement learning approach[J]．Applied Energy，2023，329：120291． doi:10.1016/j.apenergy.2022.120291
45	KANG D J， KANG D， HWANGBO S，et al ．Optimal planning of hybrid energy storage systems using curtailed renewable energy through deep reinforcement learning[J]．Energy，2023，284：128623． doi:10.1016/j.energy.2023.128623
46	徐钰涵，季天瑶，李梦诗．基于深度强化学习的微电网日前日内协调优化调度[J]．南方电网技术，2024，18(9)：106-116．
	XU Y H， JI T Y， LI M S ．Day-ahead and intra-day coordinated optimal scheduling of microgrid based on deep reinforcement learning[J]．Southern Power System Technology，2024，18(9)：106-116．
47	冯文韬，李龙胜，曾愚，等．基于深度强化学习的微电网源-荷低碳调度优化研究[J]．四川电力技术，2023，46(6)：75-82．
	FENG W T， LI L S， ZENG Y，et al ．Research on source-load low-carbon optimal dispatching for microgrid based on deep reinforcement learning[J]．Sichuan Electric Power Technology，2023，46(6)：75-82．
48	李文武，马浩云，贺中豪，等．基于n步Q-learning算法的风电抽水蓄能联合系统日随机优化调度研究[J]．水电能源科学，2022，40(1)：206-210．
	LI W W， MA H Y， HE Z H，et al ．Research on daily stochastic optimal scheduling of wind power pumped storage system based on n-step Q-learning algorithm[J]．Water Resources and Power，2022，40(1)：206-210．
49	DUAN J J， SHI D， DIAO R S，et al ．Deep-reinforcement-learning-based autonomous voltage control for power grid operations[J]．IEEE Transactions on Power Systems，2020，35(1)：814-817． doi:10.1109/tpwrs.2019.2941134
50	张涛，郝正航，徐玉韬，等．基于多智能体强化学习的两阶段电压控制策略[J]．南方电网技术，2024，18(12)：77-86．
	ZHANG T， HAO Z H， XU Y T，et al ．Two-stage voltage control strategy based on multi-agent reinforcement learning[J]．Southern Power System Technology，2024，18(12)：77-86．
51	韩保军，高强，代飞，等．基于协同奖励函数多目标强化学习的智能频率控制策略研究[J]．电力科学与技术学报，2023，38(2)：18-29．
	HAN B J， GAO Q， DAI F，et al ．Intelligent frequency control strategy based on multi-objective reinforcement learning of cooperative reward function[J]．Journal of Electric Power Science and Technology，2023，38(2)：18-29．
52	HUANG R， LI Y C， WANG X ．Attention-aware deep reinforcement learning for detecting false data injection attacks in smart grids[J]．International Journal of Electrical Power & Energy Systems，2023，147：108815． doi:10.1016/j.ijepes.2022.108815
53	郭创新，刘祝平，刘永刚，等．基于图神经网络和强化学习的电网风险态势感知[J]．电网与清洁能源，2023，39(12)：41-49．
	GUO C X， LIU Z P， LIU Y G，et al ．GNN and RL based power system risk situation perception[J]．Power System and Clean Energy，2023，39(12)：41-49．
54	LEI W X， WEN H， WU J S，et al ．MADDPG-based security situational awareness for smart grid with intelligent edge[J]．Applied Sciences，2021，11(7)：3101． doi:10.3390/app11073101
55	易仕琪，孔政敏，王帅，等．基于泛化强化学习的变电站巡检机器人路径规划研究[J]．广东电力，2023，36(11)：114-121．
	YI S Q， KONG Z M， WANG S，et al ．Study on substation inspection robot path planning based on generalization reinforcement learning[J]．Guangdong Electric Power，2023，36(11)：114-121．
56	倪爽，崔承刚，杨宁，等．基于深度强化学习的配电网多时间尺度在线无功优化[J]．电力系统自动化，2021，45(10)：77-85．
	NI S， CUI C G， YANG N，et al ．Multi-time-scale online optimization for reactive power of distribution network based on deep reinforcement learning[J]．Automation of Electric Power Systems，2021，45(10)：77-85．
57	张超，赵冬梅，季宇，等．基于改进深度Q网络的虚拟电厂实时优化调度[J]．中国电力，2024，57(1)：91-100．
	ZHANG C， ZHAO D M， JI Y，et al ．Real time optimal dispatch of virtual power plant based on improved deep Q network[J]．Electric Power，2024，57(1)：91-100．
58	吴润泽，霍金鑫，郭昊博．基于DQN的电力协同计算与缓存的任务卸载策略[J]．电力建设，2024，45(8)：149-158．
	WU R Z， HUO J X， GUO H B ．DQN-based task offloading strategy for power co-computing and caching[J]．Electric Power Construction，2024，45(8)：149-158．
59	张一凡．基于深度学习的水风光短期随机优化调度研究[J]．水电与新能源，2024，38(3)：34-37．
	ZHANG Y F ．Short-term stochastic optimization scheduling of hydro-wind-solar power system based on deep learning[J]．Hydropower and New Energy，2024，38(3)：34-37．
60	XIE J， SUN W ．Distributional deep reinforcement learning-based emergency frequency control[J]．IEEE Transactions on Power Systems，2022，37(4)：2720-2730． doi:10.1109/tpwrs.2021.3130413
61	马庆，邓长虹．基于单/多智能体简化强化学习的电力系统无功电压控制[J]．电工技术学报，2024，39(5)：1300-1312．
	MA Q， DENG C H ．Single/multi agent simplified deep reinforcement learning based volt-var control of power system[J]．Transactions of China Electrotechnical Society，2024，39(5)：1300-1312．
62	YUAN Y X， DEHGHANPOUR K， WANG Z Y，et al ．A joint distribution system state estimation framework via deep actor-critic learning method[J]．IEEE Transactions on Power Systems，2023，38(1)：796-806． doi:10.1109/tpwrs.2022.3155649
63	YU Q S， WANG X Y， LV D P，et al ．Data fusion and situation awareness for smart grid and power communication network based on tensor computing and deep reinforcement learning[J]．Electronics，2023，12(12)：2606． doi:10.3390/electronics12122606
64	陈明昊，孙毅，谢志远．基于双层深度强化学习的园区综合能源系统多时间尺度优化管理[J]．电工技术学报，2023，38(7)：1864-1881．
	CHEN M H， SUN Y， XIE Z Y ．The multi-time-scale management optimization method for park integrated energy system based on the bi-layer deep reinforcement learning[J]．Transactions of China Electrotechnical Society，2023，38(7)：1864-1881．
65	梁煜东，陈峦，张国洲，等．基于深度强化学习的多能互补发电系统负荷频率控制策略[J]．电工技术学报，2022，37(7)：1768-1779．
	LIANG Y D， CHEN L， ZHANG G Z，et al ．Load frequency control strategy of hybrid power generation system：a deep reinforcement learning-based approach[J]．Transactions of China Electrotechnical Society，2022，37(7)：1768-1779．
66	刘建行，刘方．基于深度强化学习的梯级水蓄风光互补系统优化调度策略研究[J]．广东电力，2024，37(5)：10-22．
	LIU J H， LIU F ．Research on optimized dispatching strategy of cascade hydropower-pumping-storage-wind-photovoltaic multi-energy complementary system based on deep reinforcement learning[J]．Guangdong Electric Power，2024，37(5)：10-22．
67	于一潇，杨佳峻，杨明，等．基于深度强化学习的风电场储能系统预测决策一体化调度[J]．电力系统自动化，2021，45(1)：132-140．
	YU Y X， YANG J J， YANG M，et al ．Prediction and decision integrated scheduling of energy storage system in wind farm based on deep reinforcement learning[J]．Automation of Electric Power Systems，2021，45(1)：132-140．

来源	解决问题	系统形式	求解算法	优化目标
文献[30]	能源交易	风电	Rainbow	提高收敛速度，减少所需采样次数，提高平均收益
文献[31]		微电网	MATD3	降低微电网的运行成本
文献[32]		微电网	DA-MAPPO	降低微电网的峰值负荷，同时降低各用户的用电成本
文献[33]		火电	MADDPG	提高市场的整体效率，最佳化整体碳排放收益率
文献[34]		电力市场	DDPG	降低市场风险溢价
文献[35]	多目标经济调度	热-电耦合	孪生延迟DDPG/多目标奖励函数	大幅降低优化时间，提高鲁棒性
文献[36]	需求响应	智能电网	Q-learning	减少总能耗，提高买卖双方收益
文献[37]	需求响应	用户侧	PPO2	提高收敛性和数据利用率
文献[38]	电压控制	配电网	MATD3PG	降低网损
文献[39]	电压控制	配电网	hyper Q-network	最小化长期预期电压偏差
文献[40]	频率控制	光伏-微电网	Q-learning	具有更好的频率调控作用
文献[41]	频率控制	孤岛微电网	Q-learning	具有较好的调频效果与适应性
文献[42]	能量管理	微电网	DQN	高负载率(高于50%)

来源	解决问题	系统形式	求解算法	优化目标
文献[30]	能源交易	风电	Rainbow	提高收敛速度，减少所需采样次数，提高平均收益
文献[31]		微电网	MATD3	降低微电网的运行成本
文献[32]		微电网	DA-MAPPO	降低微电网的峰值负荷，同时降低各用户的用电成本
文献[33]		火电	MADDPG	提高市场的整体效率，最佳化整体碳排放收益率
文献[34]		电力市场	DDPG	降低市场风险溢价
文献[35]	多目标经济调度	热-电耦合	孪生延迟DDPG/多目标奖励函数	大幅降低优化时间，提高鲁棒性
文献[36]	需求响应	智能电网	Q-learning	减少总能耗，提高买卖双方收益
文献[37]	需求响应	用户侧	PPO2	提高收敛性和数据利用率
文献[38]	电压控制	配电网	MATD3PG	降低网损
文献[39]	电压控制	配电网	hyper Q-network	最小化长期预期电压偏差
文献[40]	频率控制	光伏-微电网	Q-learning	具有更好的频率调控作用
文献[41]	频率控制	孤岛微电网	Q-learning	具有较好的调频效果与适应性
文献[42]	能量管理	微电网	DQN	高负载率(高于50%)

代表性算法	DQN	A-C	DDPG	Rainbow	MADDPG
特点	具有高维输入空间的决策能力，但可能会出现Q值过高的梯度爆炸情况	适用于处理连续动作空间和大型状态空间；能够处理部分可观测环境	适用于连续动作空间问题；训练时相比离散动作空间算法收敛稳定性更好；环境探索能力弱；超参数复杂	集成了改进的强化学习、优先经验回放、DDQN、分布式Q函数等多种技术	解决多智能体环境下的协作与竞争问题；集中式训练；分布式执行
架构优化改进方向	优先级经验回放机制、DDQN、多步学习等	采用更复杂的拓扑结构，或者引入注意力机制	引入噪声增加探索能力；策略延迟更新；使用自适应学习率算法调整步长	在网络上引入注意力机制，将算法扩展到多任务学习或迁移学习场景	多层次策略；自适应混合策略；分层式经验回放等
应用场景	智能电网管理、经济调度、新能源并网优化运行	电力市场交易、能源管理、智能电网控制	电能调度、电动车充电管理、电池储能系统的充放电控制	电力设备维护、电力系统规划	智能电网调度、安全态势感知等
相关文献	文献[55-59]	文献[60-63]	文献[35，64-66]	文献[30，67]	文献[33，54]

代表性算法	DQN	A-C	DDPG	Rainbow	MADDPG
特点	具有高维输入空间的决策能力，但可能会出现Q值过高的梯度爆炸情况	适用于处理连续动作空间和大型状态空间；能够处理部分可观测环境	适用于连续动作空间问题；训练时相比离散动作空间算法收敛稳定性更好；环境探索能力弱；超参数复杂	集成了改进的强化学习、优先经验回放、DDQN、分布式Q函数等多种技术	解决多智能体环境下的协作与竞争问题；集中式训练；分布式执行
架构优化改进方向	优先级经验回放机制、DDQN、多步学习等	采用更复杂的拓扑结构，或者引入注意力机制	引入噪声增加探索能力；策略延迟更新；使用自适应学习率算法调整步长	在网络上引入注意力机制，将算法扩展到多任务学习或迁移学习场景	多层次策略；自适应混合策略；分层式经验回放等
应用场景	智能电网管理、经济调度、新能源并网优化运行	电力市场交易、能源管理、智能电网控制	电能调度、电动车充电管理、电池储能系统的充放电控制	电力设备维护、电力系统规划	智能电网调度、安全态势感知等
相关文献	文献[55-59]	文献[60-63]	文献[35，64-66]	文献[30，67]	文献[33，54]

[1]	张俊, 蒲天骄, 高文忠, 刘友波, 裴玮, 许沛东, 高天露, 白昱阳. 电力系统智能计算的关键技术及应用展望[J]. 发电技术, 2025, 46(3): 421-437.
[2]	张祖菡, 刘敦楠, 凡航, 杨柳青, 段赟杰, 李赟, 马振宇. 基于大语言模型的电力系统预测技术研究综述[J]. 发电技术, 2025, 46(3): 438-453.
[3]	徐浩然, 张瑾昀, 马歆, 雷文强, 曹杰铭. 基于大语言模型的图检索增强生成技术在核电领域的应用与展望[J]. 发电技术, 2025, 46(3): 454-466.
[4]	陈艺璇, 王嘉阳, 卓映君, 卢斯煜, 周保荣. 人工智能在电力系统运行模拟加速中的应用综述[J]. 发电技术, 2025, 46(3): 467-481.
[5]	杨博, 张子健. 基于人工智能的可再生能源电解水制氢关键技术及发展前景分析[J]. 发电技术, 2025, 46(3): 482-495.
[6]	刘宿城, 栾李, 李龙, 洪涛, 刘晓东. 基于人工智能的直流微电网大信号稳定性评估方法研究[J]. 发电技术, 2025, 46(3): 496-507.
[7]	侯慧, 王燕, 刘超, 张炜, 周杨珺, LI Zhengmao, 李正天, 林湘宁. 抽水蓄能灰启动下冷热电互补综合能源系统优化调度[J]. 发电技术, 2025, 46(2): 209-218.
[8]	郑杨, 任禹丞, 王雨薇, 徐丁吉, 杨慧敏. 基于改进云模型的区域电网电能替代综合效益评价[J]. 发电技术, 2025, 46(2): 399-408.
[9]	兰国芹, 陆烨, 阚严生, 张继广, 王欢欢, 钟芳, 王承才, 肖黎明, 王照阳. 综合能源服务发展趋势与对策研究[J]. 发电技术, 2025, 46(1): 19-30.
[10]	肖白, 赵雪纯, 董光德. 电能质量综合评估方法综述与展望[J]. 发电技术, 2024, 45(4): 716-733.
[11]	陈昱, 丁鸿, 崔勇, 朱里, 陈士俊, 凌秋阳, 徐勇生, 郑建. 变电设备温度态势感知及辅助决策系统方案研究[J]. 发电技术, 2024, 45(4): 744-752.
[12]	王放放, 杨鹏威, 赵光金, 李琦, 刘晓娜, 马双忱. 新型电力系统下火电机组灵活性运行技术发展及挑战[J]. 发电技术, 2024, 45(2): 189-198.
[13]	刘林, 王大龙, 綦晓, 周振波, 林焕新, 蔡传卫. 基于双锁相环的海上风场综合惯量调频策略研究[J]. 发电技术, 2024, 45(2): 282-290.
[14]	杨捷, 孙哲, 苏辛一, 鲁刚, 元博. 考虑振荡型功率的直流微电网储能系统无互联通信网络的多目标功率分配方法[J]. 发电技术, 2024, 45(2): 341-352.
[15]	许星原, 陈皓勇, 黄宇翔, 吴晓彬, 王宇绅, 廉俊豪, 张健彬. 虚拟电厂市场化交易中的挑战、策略与关键技术[J]. 发电技术, 2023, 44(6): 745-757.

基于强化学习的新型电力系统优化策略应用综述

Review of Application on Optimization Strategies for New-Type Power System Based on Reinforcement Learning

RichHTML

PDF (PC)

可视化

摘要/Abstract

引用本文

图/表 4

参考文献 67

相关文章 15

编辑推荐

Metrics