关注下方“公众号”,获取更多开源资讯
导读
新能源大规模并网正在把电网从"确定性系统"变成"随机性系统"——风电、光伏的出力随天气波动,电动汽车充电在傍晚集中爆发,这些不确定性让电网调度员每天面对一场"概率博弈"。传统的点预测只能给出一个"最可能值",但调度决策需要的是"如果发生极端情况怎么办"。概率预测(Probabilistic Forecasting)因此成为电力系统运行的核心工具,但现有技术面临两个根本瓶颈:一是公开基准的通道数太少——主流多变量时间序列基准(ETT、Electricity、Traffic、Wiki 等)最多 2,000 通道,而实际输电网络动辄数千甚至上万节点;二是评估指标不完整——标准概率评分(如 CRPS)只衡量分布拟合精度,不区分误差是落在安全区间内还是越界,一个 CRPS 很低但系统性低估电压越界的模型,在实际运行中可能比精度稍差但保守可靠的模型更危险。
来自浙江大学 ZJU-UIUC 联合学院的团队同时攻破了这两个瓶颈:发布了 PowerPhase,首个覆盖输电级规模的概率预测基准(六个标准输电网络,500 到 9,241 节点,对应 2,000 到 36,964 联合预测通道,比现有最大基准高出一个数量级以上),并配套引入了电压安全感知评估指标(Safety_mBrier、NECV、CVaR);同时提出了 PowerForge,一种基于有序分位数场景的概率预测模型,专为万通道级电网设计。
实验结果显示:在五个主网络上,PowerForge 在 20 个"网络–指标"组合中拿下 19 个最佳、1 个并列最佳,每个网络上的平均排名均为第一;在 36,964 通道的 PEGASE 9241 网络上同样全面领跑。更重要的是,基准评测首次系统揭示了安全性–保真度权衡(Safety–Fidelity Trade-off)——分布精度高的模型不一定更安全,反之亦然,这对电网调度决策具有直接的指导意义。
文章信息
-
标题:Navigating the Safety-Fidelity Trade-off: Massive-Variate Time Series Forecasting for Power Systems via Probabilistic Scenarios
-
作者:Kaijie Xu、Anqi Wang、Xilin Dai
-
机构:浙江大学 ZJU-UIUC 联合学院(ZJU-UIUC Institute)
一、问题与产业痛点:为什么电网概率预测"不够用"
电力系统短期预测直接服务于三个关键运营环节:备用容量调度、故障筛查、短期市场出清。随着可再生能源和分布式负荷占比持续攀升,电网运行越来越依赖概率预测来量化不确定性。但把这个需求翻译成机器学习任务时,会发现现有工具链存在严重的"规模不匹配"和"评估盲区"。
1.1 规模不匹配:2,000 通道 vs. 36,964 通道
机器学习社区常用的多变量时间序列基准——ETT(7/8 通道)、Electricity(370 通道)、Traffic(862 通道)、Solar(137 通道)、Exchange-Rate(8 通道)、Wiki(2,000 通道)——通道数最高也就 2,000 左右。而实际输电网络中,每个节点(母线)需要同时预测四个物理耦合量:有功功率 、无功功率 、电压幅值 、电压相角 。一个 9,241 节点的网络就意味着 36,964 个联合预测通道,是 Wiki 基准的 18 倍。
现有概率预测方法在这个尺度上的行为几乎未被验证。自回归似然模型(DeepAR)、条件流模型(Transformer-TempFlow)、扩散模型(TimeGrad)、基于 Copula 的模型(TACTiS-2)都依赖每步密度估计,计算复杂度随通道数平方或更高次增长,在万通道级别训练和推理都极为困难。场景化方法(TimeMCL、TimePrism)用少量加权假设替代密度估计,与电网调度员"按有限故障场景推理"的工作方式更契合,但此前也未被推到输电级规模。
1.2 评估盲区:CRPS 低 ≠ 运行安全
标准概率评分规则(CRPS、对数似然)对全预测分布取平均,不区分误差发生在安全区内还是越界区。一个模型可能在 CRPS 上表现优异,却系统性低估电压越界风险——在电网语境下,这种"精度高但不安全"的模型比"精度稍差但保守可靠"的模型更具破坏性。
电力系统社区开发了物理模型(pandapower、PEGASE 测试用例等),但这些是仿真器而非基准——它们不提供标准化的预测划分,也不提供概率评估指标。现有桥梁工作要么只做快照回归(PF 、OPFData),要么只在小型网络上做时序分析(PSML 使用 23 节点输电网络),输电级、母线级、概率预测、AC 可行性感知评估这个交叉领域长期空白。
1.3 本文的破局思路
PowerPhase 填补基准空白,PowerForge 填补模型空白,两者共同揭示安全性–保真度权衡。这不是"又一个时间序列预测论文",而是把机器学习概率预测工具链真正推到电力系统运行尺度的系统性工作。
二、PowerPhase 基准
2.1 数据生成:从国家负荷曲线到母线级物理轨迹
PowerPhase 的数据来源和生成流程经过精心设计,确保物理可信且可复现:
-
源信号:德国输电系统运营商(TSO)公开数据(Open Power System Data),2015–2016 年 15 分钟分辨率,包含全国总负荷、太阳能发电、风力发电三条序列,共 70,176 个时间步; -
网络拓扑:六个标准 pandapower 测试网络,从 500 节点到 9,241 节点:
|
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
母线注入合成:每个负荷母线分配五种日形负荷曲线之一(工业型、基线居民型、光伏相关型、风电相关型、电动汽车相关型,论文 Figure 1),叠加空间相关的区域噪声和独立节点噪声; -
AC 潮流求解:每个时间步通过 pandapower 运行牛顿–拉夫逊 AC 潮流计算,迭代回退注入幅值直至收敛(收敛率 >99%),输出每个母线的 四元组。失败步用最后收敛状态前向填充。
2.2 预测任务设定
给定上下文长度 (七天,15 分钟分辨率),预测未来 步(一天)的联合分布。评估采用滚动起点测试,每个网络 10 个等间距预测窗口。输入为历史序列 ,其中 ( 为母线数),按 交错排列。
2.3 双轴评估指标:保真度 + 安全性
保真度轴(Fidelity):
-
CRPS(连续排序概率评分):衡量预测分布与观测的匹配程度,越低越好; -
Distortion:衡量每个预测窗口中最佳单假设的质量,越低越好。
**安全性轴(Safety)——电压带 p.u.**:
-
Safety_mBrier:检测能力,衡量模型是否知道何时发生电压越界; -
NECV(Normalized Expected Constraint Violation):平均越界严重程度; -
**CVaR **:最坏 10% 场景的越界严重程度(条件风险价值)。
三个安全指标的定义基于场景级越界指示 和越界幅度 :
其中 选取每个 处越界幅度最大的 个场景。Safety_mBrier 评估检测能力,NECV 评估平均严重程度,CVaR 评估尾部严重程度。
三、PowerForge 模型
PowerForge 的架构设计由电网的三个约束驱动:跨变量交互必须亚二次于通道数( 在大型电网上达 );解码必须类型异构(四个物理量具有结构不同的支撑集);已知方向性依赖应编码为架构先验而非从梯度中发现。
3.1 参考锚定残差空间
电网信号具有强日周期成分。PowerForge 从历史中提取参考 ,建模在残差空间中进行。取最近 个日段(每段 步),每个通道通过注意力加权平均构建自身参考:
其中 是皮尔逊相关系数, 是输入最后 步。不同通道可以偏好不同历史段,且短偏差校正进一步对齐参考到最近观测。输入减去参考后进入编码器,解码器输出加上参考恢复绝对预测。
图片来源于原论文
3.2 通道编码器与低秩全局混合器
通道编码器通过多尺度时间骨干(核大小 )结合节点、变量、日历嵌入,将残差输入映射为每通道表示 。跨通道自注意力复杂度为 ,在万通道级别不可行。PowerForge 用低秩混合器替代:维护 个可学习全局令牌 ,交替"读–写"注意力——通道先 attend 到 (读), 再 attend 回更新后的通道(写),第二次读将刷新后的令牌传播回通道。双向复杂度均为 , ,总成本线性于 。 个令牌充当跨通道交互的秩- 瓶颈,与电网中"少量潜在因素(系统级负荷、可再生能源组合)混合到数千通道"的物理结构相匹配。
3.3 类型感知解码器与因果跨类型桥
解码器在残差空间中产生 个假设轨迹,通过类型特定输出头和因果跨类型桥实现。
类型特定头:每个通道状态 与 个可学习场景嵌入 融合为 。 、 头采用无界线性投影加高斯扰动; 、 头通过 tanh 门控缩放(匹配锚定减法后的窄动态范围), 还做角度环绕处理。
因果跨类型桥:AC 潮流方程决定"给定有功和无功注入,求解电压幅值和相角"的因果方向。解码器通过 、 预测先产生隐藏令牌 ,然后让 、 的隐藏状态通过缩放点积注意力条件于它们:
桥是归纳偏置而非硬约束——投影权重可以在条件信息无益时降低注意力输出权重。
3.4 训练目标:有序分位数损失 + 物理正则化
条轨迹沿场景轴逐点排序,分支 被解释为分位数水平 的估计器, 由可学习 Beta( ) 形状控制。每个分支由对应水平的分位数损失(pinball loss)监督:
四个可学习每类型系数( 各一)缩放每类型贡献以平衡梯度。物理正则化抑制电压残差幅度并惩罚相角通道的时间不连续性。场景权重 来自 网格,用于评估时的加权 CRPS、加权 Safety_mBrier 和分类采样器。
四、关键实验结果:指标全面领跑
4.1 主网络评测:五个网络、四个指标、八个基线
500-bus(2,000 通道):
|
|
|
|
|
|
|
|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0.0000 | 0.0000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| PowerForge | 0.0030 | 0.0072 | 0.0000 | 0.0000 | 1.2 |
PowerForge 在 500-bus 上四项指标全部最佳,与 TACTiS-2 并列 Safety_mBrier 和 CVaR 的 0。
2383-bus(9,532 通道):
|
|
|
|
|
|
|
|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0.0039 |
|
|
|
|
|
|
|
|
|
0.0005 |
|
|
|
|
|
|
0.0005 |
|
|
|
|
|
|
|
|
| PowerForge |
|
0.0084 | 0.0010 |
|
1.2 |
PowerForge CRPS 与 TACTiS-2 在一个标准差内持平,但 Distortion 最佳、Safety_mBrier 最低(0.0010,对比 TempFlow 的 0.0032)、CVaR 最低(0.0004)。
3120-bus(12,480 通道):
|
|
|
|
|
|
|
|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| PowerForge | 0.0038 | 0.0076 | 0.0068 | 0.0025 | 1.0 |
PowerForge 在 3120-bus 上四项指标全部严格最佳,Distortion 比第二名低 2 倍以上。
安全性–保真度权衡的具体表现:
-
TimePrism是最典型案例:2383-bus 上 CRPS 0.0096(有竞争力),但 CVaR 高达 3.50(所有深度基线中最高)——"赢者通吃"训练准则产生低概率假设,大幅漂移出运行带; -
TimeMCL在 500-bus 上 CRPS 0.0054 很强,但 CVaR 0.19 平庸,呈现温和版同样模式; -
DeepAR在两个轴上均失败,每个网络上 CRPS 最差、Safety_mBrier 从未低于 0.54; -
密度模型行为不一致:TACTiS-2 在 500-bus 安全上获胜,但 Safety_mBrier 从 0 升至 0.04(3120-bus);TempFlow 和 Transformer-TempFlow 相反,500-bus 安全弱,3120-bus 进入第二梯队; -
ETS尽管简单,在小规模上出人意料地强,但随通道数增加稳定退化。
没有一个基线在跨规模和双轴上保持稳定,而 PowerForge 在所有网络上维持顶级位置。
4.2 万通道极限测试:PEGASE 9241(36,964 通道)
在最大网络上,PowerForge 与四个基线(场景化、条件流、统计家族各一)对比,四项指标全部最佳(Appendix E)。这验证了 PowerForge 的低秩混合器和有序分位数设计在极端规模下的可扩展性。
4.3 消融实验:锚定–残差参数化是最关键组件
在 PEGASE 1354 上的组件消融:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
+84% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
锚定–残差参数化是单一最重要组件,移除后 CRPS 暴涨 84%,Distortion 翻倍以上——确认在电压围绕 1.0 p.u. 的窄物理带内运行时,残差空间操作至关重要。校准和训练信号构成第二梯队:分位数扇正则化 +37%,有序分位数准则替代赢者通吃 +27%,物理正则化移除 +27%。跨类型因果桥直接影响较小(+22%),但低秩混合器对 Distortion 影响显著(+40%),说明其在单最佳假设质量上的作用。
4.4 定性分析:场景轨迹的物理合理性
论文 Figure 3 对比了 Polish 2383(9,532 通道)上三个测试窗口的电压预测场景:
-
PowerForge:产生紧凑的假设扇,在所有窗口中跟踪日周期形状,概率质量与日常模式对齐; -
TimePrism:恢复整体形状但扩散更宽,几个低概率假设明显低估晚谷——"赢者通吃"目标奖励假设多样性,扩散部分源于设计,但在此通道上转化为系统性低估而非信息性不确定性; -
TACTiS-2:中位数合理跟踪上下文均值,但穿过日周期谷时变平坦,单个样本表现出明显的高频抖动而缺乏一致的低频运动——与自回归 Copula 采样器"捕获每步边缘但衰减 96 步时间依赖性"的行为一致。
这些行为与 Table 2 的指标排序一致:产生尊重系统低频物理的结构化轨迹集,是高维电网预测中更难满足的要求。
图片来源于原论文
五、总结与思考
PowerPhase 评测首次系统量化了概率预测中一个长期被忽视的问题:分布精度(Fidelity)和约束满足(Safety)对模型的排名不同。这意味着:
-
不能只用 CRPS 选型。一个 CRPS 很低的模型可能在电压越界检测上表现糟糕,对电网运行是"隐形炸弹"; -
安全指标应该成为标准评估协议的一部分。PowerPhase 的 Safety_mBrier、NECV、CVaR 提供了可操作的补充; -
模型设计需要显式考虑物理约束。PowerForge 的锚定残差参数化、物理正则化、因果跨类型桥都是将领域知识编码为架构先验的实例; -
场景化方法比密度估计更适合电网。少量结构化场景(PowerForge 用 )在单次前向传播中产生,与调度员"按有限故障场景推理"的工作方式一致,且计算上比亚二次的密度估计更可扩展。
把上述实验结论转化为给电网运营商、电力市场技术团队和能源 AI 公司的"选型指南":
对国家电网/南方电网的调度自动化部门、省级电力交易中心、新能源场站功率预测服务商、以及能源互联网 AI 平台而言,这项工作提供了从基准到模型到评估协议的完整技术栈。PowerPhase 的开源将降低输电级概率预测的准入门槛,PowerForge 的架构设计则为万通道级模型提供了可复用的工程模板。
COCO Agent 长时程自治智能体以本地优先、命令行原生架构,可自主集成预测输出,执行滚动预警与调度辅助任务,实现从预测到行动的自动化闭环。如果您有相关技术交流或合作意向,欢迎联系我们~
© THE END
转载请联系本公众号获得授权
分享、点赞与在看,至少帮我拥有一个~

