基于随机森林算法和粗糙集理论的改进型深度学习短期负荷预测模型

图1 随机森林算法示意图

Fig. 1 Schematic diagram of RF algorithm

关于决策树的形成，国内外研究者提出了很多种决策树算法，如ID3、C4.5、分类回归树(classification and regression tree，CART)这3种算法都是采用从顶部出发、自上而下形成决策树的方法^[19-20]。在决策树形成过程中，每一个新的节点都需要选择新的属性作为分裂的依据，这3种决策树算法不同点在于生长过程中叶子分裂的抉择判据。其中，CART对回归树使用最小均方差作为分裂的属性度量，对分类树使用基尼指数(Gini index，GI)作为分裂判据^[19-20]。当运用随机森林算法进行分类时，采取投票的方式确定最终结果，当运用随机森林算法进行回归时，采用取均值的方式得到预测结果。此外，为了降低过拟合、随机误差对预测结果的影响，一般将原始数据分为训练集和测试集，而后利用bootstrap方法进行训练集抽取，接着采用CART算法从上到下逐个对每一棵决策树进行训练，直到满足要求。

1.2 特征量提取

如何选择数据集中的关键特征量对降低模型复杂度、缩短运算时间十分重要。随机森林算法进行关键特征量提取时，一般采用基尼指数或袋外数据错误率进行评价^[19-22]。采用袋外数据错误率提取特征量的算法详见文献[21-22]，本文采用基尼指数的方式进行研究，原理如下。

假设数据集有J个特征量(X₁, X₂, X₃, …, X_J )，C个类别，I棵决策树，则节点m的基尼指数为

G_{m} = \sum_{c = 1}^{C} \overset{\land}{p_{m c}} (1 - \overset{\land}{p_{m c}})

(1)

式中 $\overset{\land}{p_{m c}}$ 表示节点m样本是第c类的概率估计值。

特征量 $X_{j}$ 在节点m的重要性评分 $V_{j m}^{G I}$ 采用节点m分枝前后的基尼指数变化量表示：

V_{j m}^{G I} = G_{m} - G_{l} - G_{r}

(2)

式中 $G_{l}$ 和 $G_{r}$ 分别为节点m分枝后2个新节点l、r的基尼指数。

设定特征量 $X_{j}$ 在第i棵树中出现的节点集合为M，则特征量 $X_{j}$ 在第i棵树的重要性表示为

V_{i j}^{G I} = \sum_{m \in M} V_{j m}^{G I}

(3)

综上，特征量 $X_{j}$ 在RF中的重要性可表示为

V_{j}^{G I} = \frac{1}{I} \sum_{i = 1}^{I} V_{i j}^{G I}

(4)

由此，可以对数据集中的各个特征量进行重要性排序，提取重要特征量。

2 深度学习原理

深度神经网络(deep neural network，DNN)是深度学习的一种框架，它是一种具备至少一个隐含层的神经网络。与传统BP神经网络相比，两者有着相似的结构，但DNN隐含层的层数一般较多，并采用了layer-wise的训练机制，克服了BP神经网络训练中的梯度扩散问题。与传统的求解方法相比，训练好的DNN具有较高的计算效率和计算精度^[23]。

典型的DNN网络结构如图2所示，首尾分别为输入、输出层，中间层都是隐含层，各层间是全连接关系(前一层的任一节点一定与后一层的任一节点连接)。假设第i-1层有g个节点，则第i层的第j个节点的输出 $h_{j}^{i}$ 表示为

h_{j}^{i} = σ (z_{j}^{i}) = σ (\sum_{k = 1}^{g} ω_{j k}^{i} h_{k}^{i - 1} + b_{j}^{i})

(5)

式中： $σ (\cdot)$ 为激活函数，用于对某一节点的输入求和并进一步增强； $ω_{j k}^{i}$ 为第i-1层的第k个节点到第i层的第j个节点的权重系数； $h_{k}^{i - 1}$ 为第i-1层的第k个节点的输出； $b_{j}^{i}$ 为第i层的第j个节点的偏差系数。

图2

图2 DNN示意图

Fig. 2 Schematic diagram of DNN

本文采用均方差损失函数，表示如下：

L = \frac{1}{P T} \sum_{p = 1}^{P} \sum_{t = 1}^{T} (y_{p, t} - y_{p, t}^{'})^{2}

(6)

式中：P为训练样本数； $y_{p, t}$ 为 $t$ 时刻 $p$ 样本的期望值； $y_{p, t}^{'}$ 为DNN输出的预测值；T为预测时段数。

同时，本文对损失函数引入L2正则化，目的在于限制权重参数在一定范围，以适应异常值和噪声，表达式^[23]如下：

L = \frac{1}{P T} \sum_{p = 1}^{P} \sum_{t = 1}^{T} (y_{p, t} - y_{p, t}^{'})^{2} + \frac{α}{2} ω^{T} ω

(7)

式中： $α$ 为正则化超参数； $ω$ 为权重向量。

设定参数的学习率为 $μ$ ，通过式(7)反复更新隐含层参数，直至预测精度收敛^[23-24]。

3 预测修正模型

粗糙集理论是一种处理不确定性和模糊问题的数学工具，能够对不一致、需要误差修正或有数据丢失的缺陷信息进行有效修正和分析^[25-26]。

利用粗糙集理论建立负荷预测修正模型^[25-26]：

\{\begin{array}{l} y_{t + 1}^{'} = y_{t + 1} + s_{t} |k_{t + 1} - k_{t}| \\ k_{t + 1} = y_{t + 2} - y_{t + 1} \\ k_{t} = y_{t + 1} - y_{t} \end{array}

(8)

式中： $y_{t + 1}$ 和 $y_{t + 1}^{'}$ 分别为t+1时刻预测值和修正值； $s_{t}$ 为尺度因子。

要求解尺度因子 $s_{t}$ ，需构建一个信息系统。本文假设粗糙集理论所依的信息系统为 $K = (U, A)$ ，其中：论域U为DNN输出的预测值集合； $A = C ⋃ S$ 为属性集， $S = {s_{t}}$ 代表决策属性，条件属性 $C$ 为数据集特征量的集合，基于已有的研究结果^[25-26]，此处定义 $C = {a, b, c}$ ^。其中：

a = \frac{|k_{t + 1} - k_{t}|}{y_{t}}

(9)

b = s g n (k_{t + 1} - k_{t})

(10)

c = |\frac{y_{t}}{m a x (y_{t})}|

(11)

s_{t} = \frac{y_{t}^{'} - y_{t}}{|k_{t} - k_{t - 1}|}

(12)

至此，通过式(9)—(12)可对负荷预测值进行修正。

4 预测结果评价模型

本文设置均方误差(mean square error，MSE)和最大绝对误差(maximum absolute error，MAE) 2个指标对预测结果进行评价。预测负荷和真实负荷的均方误差用于评价整体预测效果；预测负荷和真实负荷的最大绝对误差用于评价局部点的预测效果。MSE和MAE分别表示如下：

ε_{M S E} = \frac{1}{N} \sum_{n = 1}^{N} (y_{n} - y_{n}^{'})^{2}

(13)

ε_{M A E} = m a x (|\frac{y_{n} - y_{n}^{'}}{y_{n}}|)

(14)

式中：N为预测点的数量； $y_{n}^{}$ 为第n个预测点的真实值； $y_{n}^{'}$ 为第n个预测点的预测值。

5 RF-DL-RST预测模型

RF-DL-RST模型框架如图3所示。本文的目标是对电力负荷进行短期预测，输入的特征量包括天气、时间等多种因素，与预测结果(即负荷数据)存在量纲、单位等差异，需要对预测数据进行预处理，具体方法见文献[26]。

图3

图3 RF-DL-RST模型示意图

Fig. 3 Schematic diagram of RF-DL-RST model

影响地区用电负荷的因素非常多，有天气、时间和政策等因素，然而DNN的预测精度并不与输入项呈正相关，当输入项过多时，不仅会造成网络结构复杂，还有可能劣化模型精度。

参照文献[18]，本文建立负荷预测的特征集。不过，本文认为其时间因素中的周日期和工作日、节假日构成重复，故剔除周日期特征量。同时，考虑到近几年疫情封控对社会用电方式的影响，本文将该日是否封控也作为一个特征量进行研究。此外，本文还补充了平均温度、平均风速、日出时间、日落时间等天气因素作为特征量。具体预测特征量见表1。

表1 预测特征量

Tab. 1 Prediction characteristic variables

影响因素	特征量	含义
时间因素	月	1—12月
	日	每月的具体日期
	工作日	正常上班，取值1
	节假日	周六日及其他节假日，取值0
	当日小时	00：00—24：00
天气因素	最高温度	当日最高温度，℃
	最低温度	当日最低温度，℃
	平均温度	当日平均温度，℃
	平均相对湿度	当日平均湿度，%
	天气条件	如晴、阴、雨、雪等
	空气质量	空气质量指数
	平均风速	当日平均风速，m/s
	日出时间	具体时刻
	日落时间	具体时刻
政策因素	是否封控	受疫情、天灾影响时取1，反之取0

新窗口打开| 下载CSV

6 算例分析

本文使用苏州某地区电网2022年10月28日至2023年2月4日的负荷数据对RF-DL-RST预测模型进行仿真验证。为验证RF-DL-RST模型的优越性，设置2个对比模型，其中：对比模型1是RF-DL模型，无RST修正部分；对比模型2是DL-RST模型，无RF特征量筛选部分。3个模型的相关参数选择一致。

6.1 负荷预测关键特征量提取

对表1所选取的预测特征量进行重要性排序，RF模型中决策树数目设置为500，分裂特征数取3，训练集和测试集比例为9∶1。图4为特征量重要性分析结果。

图4

图4 随机森林算法特征量重要性分析结果

Fig. 4 Results of importance analysis of characteristic variables based on RF algorithm

从图4可以看出，表1中15个特征量按重要性得分从低到高排序后，当日小时、最低温度、平均温度、天气条件、节假日、工作日、日出时间、是否封控这8个特征量得分较高，因此将其作为DNN模型的输入项。

6.2 深度学习训练

将由RF筛选的8个关键特征量和历史负荷数据分别作为DNN模型的输入、输出项进行训练。DNN输入层节点数为8，输出层节点数为1。设置DNN含3层隐含层，节点数分别为40、30和20，激活函数为ReLU；训练集和测试集比例为9∶1，训练次数为200次。

在迭代过程中，预测值的均方误差随训练次数的变化曲线如图5所示。可以看出，均方误差在训练次数为150左右时开始收敛，不断趋近于975 MW²这一数值。

图5

图5 预测值均方误差随训练次数的变化曲线

Fig. 5 Curve of MSE of predicted value changing with training times

6.3 RST修正

依据式(8)—(12)分别计算条件属性 $C = {a, b, c}$ ，以及在 $t$ 之前的决策属性S，从而得到粗糙集信息系统。鉴于粗糙集理论处理数据的要求，此处设定条件属性 $C = {a, b, c}$ 的编码规则^[13]为

C = {a \in [1,6], b \in [1,3], c \in [1,6] | a, b, c \in Z}

(15)

由此，可计算得到修正后的负荷预测数据。

图6为2023年2月5日的实际负荷与RST修正前后预测负荷曲线。可以看出，经RST修正后的预测负荷曲线基本介于实际负荷曲线和未经RST修正的预测负荷曲线之间，更接近实际负荷曲线。

图6

图6 实际负荷与RST修正前后预测负荷曲线对比

Fig. 6 Comparison of actual load and predicted load curves before and after RST correction

6.4 对比分析

根据式(13)、(14)可计算出预测结果的评价指标。RF-DL-RST模型与RF-DL、DL-RST模型的指标对比如表2所示。

表2 3个模型的指标对比

Tab. 2 Index comparison of three models

模型	DL训练时间/s	MSE/MW²	MAE/%
RF-DL-RST	96.29	680.33	4.01
RF-DL	96.29	974.65	5.77
DL-RST	107.21	865.84	4.73

新窗口打开| 下载CSV

从表2可以看出，与RF-DL模型相比，RF-DL-RST模型的MSE指标降低了30.198%，整体预测结果更接近真实值，MAE指标也从5.77%下降到4.01%，在07:00—08:00(负荷迅速增加)和22:00—23:00(负荷迅速降低)等负荷变化较大的特殊时段，预测精准度大大提高。

此外，与DL-RST模型相比，RF-DL-RST模型的MAE和MSE指标分别降低了15.221%和21.425%，且RF-DL-RST模型的DL训练时间缩短了10.186%，说明通过RF模型精简DL输入特征量能够提高负荷预测效果。

综合以上分析可知，RF-DL-RST模型的预测结果明显更优，验证了本文预测模型的有效性。

7 结论

针对短期负荷预测，基于随机森林算法和粗糙集理论，提出RF-DL-RST模型。通过实例计算分析，得到如下结论：

1）通过RF对影响负荷的因素进行重要性评估，缩短了模型运算时间，提高了预测的精准度。

2）通过RST对模型结果进行修正，并从整体和局部2个角度建立评价模型，验证了方法的有效性，大大提高了对负荷突变点的预测精准度。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

狄曙光，刘峰，孙建宇，等．

基于改进ABC和IDPC-MKELM的短期电力负荷预测

[J]．智慧电力，2022，50(9)：74-81． doi:10.3969/j.issn.1673-7598.2022.09.012

S G

， LIU

， SUN

J Y

，et al ．

Short term power load forecasting based on improved ABC and IDPC-MKELM

[J]．Smart Power，2022，50(9)：74-81． doi:10.3969/j.issn.1673-7598.2022.09.012

[2]

朱文广，李映雪，杨为群，等．

基于K-折交叉验证和Stacking融合的短期负荷预测

[J]．电力科学与技术学报，2021，36(1)：87-95． doi:10.19781/j.issn.1673-9140.2021.01.010

ZHU

W G

， LI

Y X

， YANG

W Q

，et al ．

Short-term load forecasting based on the K-fold cross-validation and stacking ensemble

[J]．Journal of Electric Power Science and Technology，2021，36(1)：87-95． doi:10.19781/j.issn.1673-9140.2021.01.010

[3]

杨胡萍，余阳，汪超，等．

基于VMD-CNN-BIGRU的电力系统短期负荷预测

[J]．中国电力，2022，55(10)：71-76．

YANG

H P

， YU

， WANG

，et al ．

Short-term load forecasting of power system based on VMD-CNN-BIGRU

[J]．Electric Power，2022，55(10)：71-76．

[4]

赵洋，王瀚墨，康丽，等．

基于时间卷积网络的短期电力负荷预测

[J]．电工技术学报，2022，37(5)：1242-1251．

ZHAO

， WANG

H M

， KANG

，et al ．

Temporal convolution network-based short-term electrical load forecasting

[J]．Transactions of China Electrotechnical Society，2022，37(5)：1242-1251．

[5]

陈皓勇

．

“双碳”目标下的电能价值分析与市场机制设计

[J]．发电技术，2021，42(2)：141-150． doi:10.12096/j.2096-4528.pgt.21008

CHEN

H Y

．

Electricity value analysis and market mechanism design under carbon-neutral goal

[J]．Power Generation Technology，2021，42(2)：141-150． doi:10.12096/j.2096-4528.pgt.21008

[6]

付黎苏，王宁，王春虎，等．

黑龙江电力现货市场建设建议及结算机制设计

[J]．电力自动化设备，2023，43(5)：15-22．

L S

， WANG

C H

，et al ．

Construction suggestions and settlement mechanism design of Heilongjiang electricity spot market

[J]．Electric Power Automation Equipment，2023，43(5)：15-22．

[7]

李兵抗

．

电力市场多元主体信用风险测度及防控模型研究

[D]．北京：华北电力大学，2022．

B K

．

Research on the credit risk measurement and control model of multi power market entities

[D]．Beijing：North China Electric Power University，2022．

[8]

陈伟，赵裕童．

基于深度条件概率密度函数的居民电力负荷预测

[J]．电网与清洁能源，2022，38(5)：36-41． doi:10.3969/j.issn.1674-3814.2022.05.005

CHEN

， ZHAO

Y T

．

Residential power load forecasting based on the depth conditional probability density function

[J]．Power System and Clean Energy，2022，38(5)：36-41． doi:10.3969/j.issn.1674-3814.2022.05.005

[9]

侯慧，王晴，赵波，等．

关键信息缺失下基于相空间重构及机器学习的电力负荷预测

[J]．电力系统保护与控制，2022，50(4)：75-82．

HOU

， WANG

， ZHAO

，et al ．

Power load forecasting without key information based on phase space reconstruction and machine learning

[J]．Power System Protection and Control，2022，50(4)：75-82．

[10]

张永伟，潘巧波．

基于KPCA-SVM模型的电力负荷最大值短期预测方法

[J]．发电技术，2019，40(6)：521-526． doi:10.12096/j.2096-4528.pgt.19010

ZHANG

Y W

， PAN

Q B

．

Short-term prediction method of maximum power load based on KPCA-SVM model

[J]．Power Generation Technology，2019，40(6)：521-526． doi:10.12096/j.2096-4528.pgt.19010

[11]

汤义勤，邹宏亮，蒋旭，等．

基于VMD和贝叶斯优化LSTM的母线负荷预测方法

[J]．电网与清洁能源，2023，39(2)：46-52． doi:10.3969/j.issn.1674-3814.2023.02.007

TANG

Y Q

， ZOU

H L

， JIANG

， et al ．

A bus load forecasting method based on VMD and Bayesian optimization LSTM

[J]．Power System and Clean Energy，2023，39(2)：46-52． doi:10.3969/j.issn.1674-3814.2023.02.007

[12]

王臻，刘东，徐重酉，等．

新型电力系统多源异构数据融合技术研究现状及展望

[J]．中国电力，2023，56(4)：1-15．

WANG

， LIU

， XU

C Y

，et al ．

Status quo and prospect of multi-source heterogeneous data fusion technology for new power system

[J]．Electric Power，2023，56(4)：1-15．

[13]

李焱，贾雅君，李磊，等．

基于随机森林算法的短期电力负荷预测

[J]．电力系统保护与控制，2020，48(21)：117-124． doi:10.19783/j.cnki.pspc.191594

， JIA

Y J

， LI

，et al ．

Short term power load forecasting based on a stochastic forest algorithm

[J]．Power System Protection and Control，2020，48(21)：117-124． doi:10.19783/j.cnki.pspc.191594

[14]

王民量，张伯明，夏清．

电力系统短期负荷预测的共轭梯度ANN方法

[J]．电力系统自动化，1999，23(1)：34-36． doi:10.3321/j.issn:1000-1026.1999.01.010

WANG

M L

， ZHANG

B M

， XIA

．

Short term load forecasting using a multilayer neural network with conjugate gradient learning algorithm

[J]．Automation of Electric Power Systems，1999，23(1)：34-36． doi:10.3321/j.issn:1000-1026.1999.01.010

[15]

李程

．

基于量子神经网络的短期电力负荷预测研究

[D]．长沙：湖南大学，2011． doi:10.1109/appeec.2011.5748765

．

Study on short term load forecasting based on quantum neural network

[D]．Changsha： Hunan University，2011． doi:10.1109/appeec.2011.5748765

[16]

向德军，张维静，冯歆尧，等．

考虑特征值细分的广义加性短期负荷预测模型

[J]．电力需求侧管理，2023，25(1)：46-51． doi:10.3969/j.issn.1009-1831.2023.01.008

XIANG

D J

， ZHANG

W J

， FENG

X Y

，et al ．

Generalized additive short-term load forecasting model considering eigenvalue subdivision

[J]．Power Demand Side Management，2023，25(1)：46-51． doi:10.3969/j.issn.1009-1831.2023.01.008

[17]

王健，易姝慧，刘俊杰，等．

基于随机森林算法和稳态波形的非介入式工业负荷辨识

[J]．中国电力，2022，55(2)：82-89．

WANG

， YI

S H

， LIU

J J

，et al ．

Non-intrusive industrial load identification based on random forest algorithm and steady-state waveform

[J]．Electric Power，2022，55(2)：82-89．

[18]

董彦军，王晓甜，马红明，等．

基于随机森林与长短期记忆网络的电力负荷预测方法

[J]．全球能源互联网，2022，5(2)：147-156．

DONG

Y J

， WANG

X T

， MA

H M

，et al ．

Power load forecasting method based on random forest and long short-term memory

[J]．Journal of Global Energy Interconnection，2022，5(2)：147-156．

[19]

颜建建

．

面向连续型属性的决策树分类算法研究

[D]．厦门：厦门大学，2020． doi:10.1109/access.2019.2892083

YAN

J J

．

Research on decision tree classification algorithms for continuous attributes

[D]．Xiamen：Xiamen University，2020． doi:10.1109/access.2019.2892083

[20]

李庭洋，栾新，彭正洪．

决策树学习算法在交通方式选择模型中的应用

[J]．武汉大学学报(工学版)，2013，46(3)：354-358．

T Y

， LUAN

， PENG

Z H

．

Application of traffic mode choice model based on decision tree algorithm

[J]．Engineering Journal of Wuhan University，2013，46(3)：354-358．

[21]

刘勇，兴艳云．

基于改进随机森林算法的文本分类研究与应用

[J]．计算机系统应用，2019，28(5)：220-225．

LIU

， XING

Y Y

．

Research and application of text classification based on improved random forest algorithm

[J]．Computer Systems & Applications，2019，28(5)：220-225．

[22]

高林，刘英，盛子豪．

随机森林算法在交通状态判别中的应用

[J]．实验技术与管理，2017，34(4)：43-46．

GAO

， LIU

， SHENG

Z H

．

Application of random forest algorithm to traffic state identification

[J]．Experimental Technology and Management，2017，34(4)：43-46．

[23]

黄弦超，封钰，丁肇豪．

多微网多时间尺度交易机制设计和交易策略优化

[J]．电力系统自动化，2020，44(24)：77-88． doi:10.7500/AEPS20200601001

HUANG

X C

， FENG

， DING

Z H

．

Design of multi-time scale trading mechanism and trading strategy optimization for multiple microgrids

[J]．Automation of Electric Power Systems，2020，44(24)：77-88． doi:10.7500/AEPS20200601001

[24]

蒋玮，汤海波，祁晖，等．

基于集成深度神经网络的配电网联络关系辨识技术

[J]．电力系统自动化，2020，44(1)：101-108． doi:10.7500/AEPS20190411010

JIANG

， TANG

H B

， QI

，et al ．

Distribution network connectivity recognition based on ensemble deep neural network

[J]．Automation of Electric Power Systems，2020，44(1)：101-108． doi:10.7500/AEPS20190411010

[25]

董骁雄，陈云翔，蔡忠义，等．

基于粗糙集理论修正的后续备件指数平滑预测方法

[J]．系统工程与电子技术，2018，40(4)：833-838． doi:10.3969/j.issn.1001-506X.2018.04.17

DONG

X X

， CHEN

Y X

， CAI

Z Y

，et al ．

Residual prediction method of subsequent spare parts based on exponential smoothing method and rough set theory

[J]．Systems Engineering and Electronics，2018，40(4)：833-838． doi:10.3969/j.issn.1001-506X.2018.04.17