

科研分享 | 基于主动隐私聚类和知识融合的可迁移联邦学习风电功率预测方法

Jackson聊跨境出海

2024-12-06

导读：科研分享：基于主动隐私聚类和知识融合的可迁移联邦学习风电功率预测方法

科研分享 | 基于主动隐私聚类和知识融合的可迁移联邦学习风电功率预测方法

前言

本课题组近期在Energy期刊上发表论文"A transferable federated learning approach for wind power prediction based on active privacy clustering and knowledge merge"(基于主动隐私聚类和知识融合的可迁移联邦学习风电功率预测方法) 欢迎各位专家读者批评指正。

研究背景

风力发电作为清洁能源的代表，在全球能源转型中扮演着至关重要的角色。然而，风力发电在很大程度上依赖于不确定、不可控制的气象因素，风速和风向的变化都会使发电量出现波动。对风功率进行准确的预测，能够帮助电力系统的调度部门及时地调整调度计划，并减少“弃风”现象，保障电力系统的稳定。

风电预测的主流方法经历了从物理模型、统计模型再到目前主流的深度学习模型的转变。由于不同空间尺度的风电数据存在较强的异构性，现有的大多数模型通常针对特定的空间尺度进行优化——要么是单个风机，要么是整个风电场，无法适用于不同的空间尺度。风电数据的隐私问题与更广泛的能源安全问题密切相关，风电场数据中包含的敏感信息不仅有助于维护风机的健康，还能确保其在电力市场中的竞争地位。现有的高精度风功率预测方法多为集中式深度学习方法，要么仅依赖于单个风电场的有限数据进行训练，预测精度有限；要么将数据汇总到中央服务器上进行处理，但这又带来了隐私泄露的风险。因此，当前亟需一种既能保护数据隐私，又能在强异构的数据分布下准确预测风功率的方法。

研究内容

针对上述挑战，本文提出了一种名为D-M APCFed的新型联邦学习方法。核心创新包括：

多空间尺度的预测框架：该方法可应用于单个风机或整个风电场的预测，具有多空间尺度的适应性。
主动隐私聚类算法（APC）：通过在数据隐私保护边界内执行风场/风机客户端的聚类，有效缓解了不同风电场间的数据异质性对预测模型性能的负面影响。
D-M FedAvg知识融合策略：APC方法实现了按客户端的数据分布进行分组。经典的联邦学习模型参数聚合算法FedAvg对所有客户端建立单一模型，不再适用，本文提出了 DM-FedAvg知识融合策略，实现聚类间和聚类内的客户端知识融合。

D-M APCFed方法的流程为：

Step 1: 执行APC算法

在联邦学习开始之前，服务器将公共数据分发给所有客户端。每个客户端在本地计算私有数据与公共数据的分布距离（EMD），并将结果上传到服务器。服务器对接收到的所有EMD进行聚类分析，并将相应的聚类标签分发给各个客户端。

Step 2: 初始化全局模型

服务器根据聚类标签初始化k个全局模型，每个模型对应一个类别，从而为不同的数据分布提供针对性的建模能力。

Step 3: 本地模型训练和参数上传

服务器从客户端中随机抽样并分配相应的全局模型。客户端利用自身的私有数据在本地训练模型，并在训练期间定期验证模型的性能。最终，客户端将本地验证集上表现最优的模型参数上传至服务器。

Step 4: 使用D-M FedAvg进行参数聚合与更新

服务器根据客户端的聚类类别对接收到的模型参数进行分组，并在每个聚类内执行完全参数聚合，从而得到k个候选更新的全局模型。随后，服务器对这k个模型的部分参数进行进一步聚合，最终更新服务器上的全局模型。

Step 5: 迭代

服务器在测试集上验证更新后的全局模型的性能。如果模型精度达到预期要求，则联邦学习过程结束；否则，返回步骤3和步骤4继续迭代。

通过以上五个步骤，D-M APCFed方法在实现数据隐私保护的同时，有效解决了数据异质性问题，并显著提升了风电预测模型的多空间尺度适应性与预测精度。

图1 方法概述图

对于具体的风功率预测模型，风功率与风速大小强相关，精准的气象预报对风功率预测有重要作用。此外，历史风电数据有助于预测模型建模各变量和风功率的关系。基于这两点分析，本文使用Encoder-Decoder架构作为预测模型的整体框架。由于风能固有的周期性和波动性，分解风功率为趋势分量和波动分量，分别进行预测，降低预测难度。

图2 风功率预测模型图

案例分析

本文使用风机级和风场级两个不同空间尺度的真实风力发电数据进行实验。风场数据集是龙源电力公司公开的20个不同风场近1年的发电数据和气象数据。风机数据集是中国宁夏省某风电场25台风机约2年的SCADA系统数据和气象数据。本文设计了常规实验测试D-M APCFed在参与FL的风机/风场的测试集上的预测精度，设计了迁移实验以测试D-M APCFed训练好的模型在未参与FL的风机/风场的测试集上的预测精度，迁移实验中使用不同大小的数据量来微调训练好的模型。

图3 实验设计思路

在风机和风场两个空间尺度上，所提出的方法都优于对比的方法（集中式深度学习方法和普通联邦学习方法），表现出卓越的跨空间尺度适应性能，在隐私边界内实现了精准的风功率预测。

图 4 常规实验结果

在小样本和零样本场景下，D-M APCFed方法也能通过少量数据的fine-tune实现接近常规实验精度的风功率预测，即使在数据稀缺甚至完全无数据的新建风场中，该方法也能够凭借预训练获得的知识实现可靠的预测。

图 5 风机尺度迁移实验结果

图 6 风场尺度迁移实验结果

主要结论

(1) 聚类内和聚类间的知识融合能有效缓解数据异质性

主动隐私聚类（APC）方法通过对数据分布相似的客户端进行聚类，有效减轻了数据异质性对模型的负面影响。然而，这种方法可能导致“聚类孤岛”的风险，即聚类之间无法共享有价值的知识。D-M APCFed通过D-M FedAvg方法实现了不仅限于聚类内的知识融合，还在聚类间选择性地共享知识，从而平衡了隐私保护与预测精度。该方法捕捉到了聚类内的局部模式和跨聚类的共享模式。在常规实验中，该方法在20个风机上的平均预测准确率为81.69%，在12个风电场上的准确率达到87.11%，表明D-M APCFed有效克服了数据异质性限制，实现了隐私保护和高精度预测的双重目标。

(2) 在数据稀缺场景下的强适应能力

D-M APCFed在处理数据稀缺场景时表现出卓越的迁移能力，这在实际中尤为重要，例如新建风电场可能缺乏历史数据的情况。通过微调仅16%的新风场数据，该模型即可实现与全量训练模型相当的预测精度，展现出强大的小样本学习能力。即便在零样本场景下（未使用新客户端的额外数据），D-M APCFed依然能够保持高预测准确率。迁移实验表明，少样本的预测准确率接近常规训练结果，验证了该方法在数据可用性不均环境中的可靠性与适应性。

(3) 不同空间尺度的性能差异与影响因素

模型在风场尺度的预测性能显著优于风机尺度，主要原因包括以下两点：

风场数据集通常包含更丰富的气象变量，为风电建模提供了更全面的上下文信息。

风场尺度的风速预测更接近实际值，而风机尺度的风速数据受空间尺度更小的影响，波动更大且准确率更低。

a) 基于机理模型生成的围护结构负荷和渗透负荷对最终负荷预测模型性能有显著贡献。通过多种融合方法将机理模型的输出与历史数据整合到模型中，提出了五种不同的机理数据融合模型，分别是HYM-Base、HYM-Res、HYM-ResA、HYM-ResB和HYM-ResC。

b) 五种具有不同融合方法的机理数据融合模型被构建。在不同数据量（100%、50%和25%）的情况下，最佳模型在RMSE上的预测结果分别比DDRM提升了21.35%、16.35%和12.73%。机理数据融合模型中的残差连接和负荷处理过程提升了基于机理模型结果的优先级，并平衡了输入权重的量级，使得这些成为各实验组中的最佳模型。

c) 对于训练模型的部署，在区域供热系统中为每个建筑建立机理数据融合模型或数据驱动所需的训练成本是巨大的。在各实验组中，最佳模型在RMSE上的预测结果分别比DDRM提高了15.56%、11.48%和14.73%。由于具备良好的可迁移性，采用HYM-ResA和HYM-ResC这种架构的模型，凭借其强大的可迁移性，降低了总训练成本，并生成了与真实值接近的预测温度结果。

图 7 风机客户端EMD分布

图 8 风场客户端EMD分布

图 9 风机1和风场1实际风速分布与预测风速分布的比较

图 10 风机1和风场实际风速曲线与预测风速分布的比较

总结

本文提出了D-M APCFed方法，在风电功率预测问题中实现了隐私保护与预测精度的平衡。通过主动隐私聚类（APC）算法和D-M FedAvg知识融合策略，该方法克服了风电数据异质性的问题，同时在不同空间尺度上展现了较好的适应能力和迁移能力。在风机和风场两个层面，D-M APCFed均优于传统集中式方法和普通联邦学习方法，在数据稀缺甚至零数据的场景下，该方法依然能够通过预训练的知识实现可靠的风功率预测。未来，D-M APCFed方法有望在风电预测及更广泛的分布式可再生能源领域推广应用。

【声明】内容源于网络

Jackson聊跨境出海

跨境分享志 | 每天记录跨境心得

内容 48153

粉丝 1

Jackson聊跨境出海跨境分享志 | 每天记录跨境心得

总阅读186.1k

粉丝1

内容48.2k