
随着信息和通信技术在电力系统中的日益普及,传统电力系统正在被数字化。本文通过对智能电网中智能电表和其他数据采集终端采集的用电量数据的聚类分析,提出了日用电量数据的聚类模型,并利用该聚类模型发现和提取低压用户的日常用电模式。
同时,通过对一个月内1312个低压用户的日用电量数据的案例分析表明,该聚类模型能够较好地识别低压住宅用户不同地日常用电模式。
背景分析
电力系统越来越多地采用数字信息和通信技术,为实施大数据挖掘和分析提供了机会。基于先进数据分析的决策支持在智能电力系统的形成、运营和管理中发挥着越来越重要的作用。
近年来,智能电网和智能电表已得到广泛部署。电力消耗可以用单变量时间序列数据表示。不同类型的用户具有不同的电力消耗模式。通常,商业用户和住宅用户的用电模式在瞬时负荷水平、用电时间和用电量方面存在显著差异。不同类型用户的用电模式相对容易识别。
但是,用户群体中的电力消耗模式可能会有很大差异。本文通过开发基于聚类的用电模式识别模型来发现低压住宅用户的用电模式。
智能用电服务架构和过程模型
1智能用电的服务架构
作为智能电网的关键组成部分之一的智能用电是基于先进的计量技术、双向交互式电表、高性能控制技术 、高速通信技术 、快速存 储技术 、电能数据采集终端 、以及实时营销系统等先进技术 。
此外 ,融合需求侧管理和需求响应的现代管理理念对于实现智能用电也具有重要意义。
智能用电的服务架构 如图 1 所示。

电能数据采集系统是智能用电服务架构中的关键部件之一,通过该系统可以实时收集、处理和监控不同电力用户的电力使用信息。
智能电网中电能数据采集系统的主要功能包括汽车充电使用信息采集、在线监测、成本控制管理、有序用电管理、电能质量监测、采集数据发布、采集维护监控和电力使用行为分析。
电能数据采集系统由主站系统、传输通道、采集终端和智能电表组成。
电能数据采集系统由四层组成: 用户层、数据采集层 、网络层 、数据存储分析和应用层 。对于第一层中的各种电力用户,通过智能电表和第二层中的其他数据获取终端实时收集电力消耗数据。
通过第三层中的自建专有网络或第三方公共网络,大规模的电力消耗数据被传输到服务器。数据存储分析和、营销应用在第四层进行。
2低压用户用电模式挖掘框架
为了发现低压住宅用户的用电模式,提出了一个如图 2 所示的聚类模型。

图 2 显示低压住宅用户用电模式的四个阶段 。
首先,必须通过电能数据采集系统收集低压住宅用户的日常用电量数据。对于同一时期内同一地点的一定数量住宅用户的用电模式,必须确定时间维度、空间维度和用户规模。随后必须清理和预处理所收集的初始数据。
在住宅区,通常有不同类型的低压电力用户,包括住宅用户和非住宅用户。对于住宅用户来说,由于设备故障和外界影响,住宅日用电量数据存在一定的缺失值。
此外,有一些家庭在一个月的许多天几乎没有用电,主要是因为没有人住在那所房子里。为了更好地对收集到的日用电量数据进行预处理,挖掘低压住宅用电量模式,本文对非住宅用电用户进行如下定义。
非住宅用户是低压配电网的物业管理公司( 如电梯) 、非工业用电、非住宅照明用电( 如厕所、公共走廊、地下车库) 、商业建筑用电( 如商店) 、学校用电。
数据缺失住宅用户指的是日常用电量记录中存在至少一个缺失值的住宅用户。零使用住宅用户指的是有多个缺失值或每天的电量低于1千瓦小时超过 20 天的住宅用户。
在数据清理和预处理阶段,剔除非住宅用户、缺失值住宅用户和零使用住宅用户。然后准备可用于聚类验证和分析的预处理输入数据。聚类是一种无监督的学习过程,聚类的数量是许多聚类算法的输入参数。
因此,使用聚类有效性指数来确定适当的聚类数量是住宅用户分组的先决步骤。通过住宅日常用电数据的聚类,发现具有类似用电模式的住宅用户分组。
最后获得由相应的聚类中心表示的每个用户组的典型用电模式,并从用电模式中提取特征指标。
聚类分析方法
聚类分析是数据挖掘。智能决策和模式识别的重要工具。聚类方法很多,此处采用常见的模糊聚类方法之一模糊c均值( FCM) 来发现低压住宅用户的用电模式 。
另外 ,为了确定组的数量,还使用了模糊聚类有效性指数 PBMF 的概念。
1模糊 c 均值(FCM)聚类
数据聚类的目的是根据数据对象之间的相似性将给定的数据集划分为不同的组,以便将数据对象划分为相同的组,并且不同组的数据对象的最大程度不同。
聚类的数学描述如下:
对于给定的数据集 X = { x1 ,x2 ,...,xn } ,聚类算 法将 X 中的 n 个数据对象基于相似之处划分为 c组,C={C1,C2,...,Cc}。得到分区矩阵U(X),并且U=[μij]c×n(i=1,...;j=1,...,n),其中μij是对象 xj 到聚类 Ci 的隶属度。如果 μij 满足

如果分组结果满足: Ci ≠Ф,Ci ∩Cj = Ф 并且∪ci=1Ci = X,那么这种聚类分区就是清晰的聚类。在模糊聚类中,每个数据对象的组成员资格由隶属度的值表示。
通常,数据对象被划分为具有最大隶属度值的组。模糊聚类中的隶属度 μij 满足:

模糊 c 均值( FCM) 聚类是一种被广泛使用的模糊聚类方法。其目标函数定义为:

式中,υi 是聚类Ci 的聚类中心,计算公式为υi =( 1 / n i ) ∑ X ∈ C X j ,其中 n i 是 聚 类 C i 中 的数据对象ji的数目。式( 5) 中 m 是 FCM 的模糊体,‖·‖ 表示数据对象 xj 到聚类中心 υi 的欧几里得距离。
FCM通过以下公式更新隶属度μij 和聚类中心υi:

FCM 算法可概括为算法 1。
算法 1 模糊C均值(FCM)
输入: 数据集 X,聚类数目 C,初始聚类中心矩阵 V0 ;
输出: 隶属度矩阵 U,聚类中心矩阵 V;
Begin
i = 0;
U(i) =Ф;
Repeat
i = i + 1;
使用公式(7)和U(i-1) 计算V( i) ;
使用公式( 6) 和 V( i ) 计算 U( i ) ;
Until
满足停止条件;
End
2模糊聚类验证
由于聚类是一种无监督的学习过程,因此在聚类之前聚类的数量通常是未知的。
此外,聚类的数量是许多聚类算法中的必要参数。因此,确定合适的聚类数是聚类中具有挑战性和重要性的任务。
聚类验证是评估聚类结果并选择适当数量的聚类的过程。聚类有效性指数是聚类验证中的标准函 数,用于确定最优聚类数。
当聚类的数量在区间范围[2 ,C max]中变化时,计算聚类有效性指数的值。聚类有效性指数达到其极值点的聚类通常被认为是聚类的良好选择。
用于模糊聚类的聚类有效性指数( PBMF) 的定义如下:

其中,
并且
和n分别是聚类的数量和数据对象的总数。μij 是隶属度,d(xj,υi) 是数据对象 xj 到聚类中心 υi 的欧几里得距离。
P B M F 指 数 由 三 个 因 子 组 成 : 1 / C 、E 1 / E C 和 D C 。
1/C 随着聚类数 C 的增加而减小; E1 /EC 是当所有数据对象被视为一个聚类时以及当数据对象被分成 C个聚类时的类间距离的加权总和的比率,该因子表示C 聚类的紧凑性,其中 EC 随着 C 的增加而减小,而 E1是固定值,用于降低 E1 / EC 变得非常小的可能性; DC是类间距离的最大值,用于测量聚类的分离程度。
随着聚类数量 C 的增加 ,1 / C 减小而 E / E 和 D 增大 。1CC 当 C 减小时 ,E 1 / E C 和 D C 在 P B M F 中的权重变大 。
随着 C 的增加,1 / C 的权重逐渐增加。当 PBMF 达到其最大值时确定最佳聚类数量 C。本文使用 PBMF 来确定住宅用户每日电力消费模式的适当聚类数。
案例研究
1研究区域的概述
选取本文所研究的 X 城市位于中国东部省份。该市常住人口 165 万,城市总户数 430,714。该市位于北亚热带南部季风气候区,四季分明。因此,该市住宅用电具有潜在的季节性。该市电力由国家电网公司提供。住宅消费者通常按月收费。
2数据清理和预处理
收集2017 年12 月1 日至12 月31 日期间该市1312 名低压用户每日用电量数据。在数据清理和预处理阶段,确定了 367 个非住宅用户、数据缺失住 宅用户和零使用住宅用户。
不同类型的低压用户的 分布如图 3 所示。

如图 3 所示,非住宅用户和有效住宅用户分别占低压用户总数的 10% 和 72% ,其余为数据缺失和零使 用的住宅用户。非住宅用电分布如图 4 所示。

由图 4 可知,非住宅用户有四种类型。图 5 给出了这四种类型的低压非住宅用户具有不同的用电模式。

由图 5 可知,商业用户和学校的用电量明显高于非工业用电和公共照明用电。此外,商业用途和公共照明的电力消耗曲线表现出低波动性。而学校用户在周一至周五的每日用电量明显高于周六和周日。
3住宅用电的聚类和分析
在数据清理和预处理之后,用于分析的有效住宅用户数为 945,其每日用电量曲线如图 6 所示。
由图 6 可以看出住宅用户的用电模式差异很大,因此很难直观地划分和分组,因此为了确定适当数量的组,本文应用上述介绍的模糊聚类有效性指数 PBMF 对住宅用户确定适当数量的聚类。

PBMF值的变化显示在图 7 中。

从 图 7 中 可 以 看 出 ,当 C = 3 、8 和 1 0 时 ,P B M F指数达到最大值。这里,“最大值”是数学中的概念,其不是指全局( 绝对) 最大值,而是指 C 值的某个邻域内的局部( 相对) 最大值。根据该标准,即使这两个点处的 PBMF 值相对较高,也不选择 C = 4 和 5。就本 文言,C = 3、8 和 10 被确定为适合于住宅用电量概况的聚类。
使用 FCM 群集,并将 945 个低压住宅用户的聚类数量设置为 3,得出如图 8 - 9 所示的日用电分析 结果,这三组聚类用户的关键指标总结在表 1 中。

如表 1 所示,聚类 b 的用户数最少( 139) ,一个 月内日用电量的波动最大( 均方差为 5. 05) ,其平均 日耗电量最大,达到34.40 千瓦时/天。聚类 c 的日用电量波动性最小。


将聚类数量设置为 8( C = 8) 得出的日用电分析 结果如图 10 - 11 所示。表 2 总结了这八组聚类用户的主要指标。


表 2 显示,a、d 和 e 聚类用户的日用电量不高,且波动较小。而 c 聚类用户中的 42 个用户具有最 大的平均日用电量以及最大的波动率,其均方差值达到6.11。
将聚类数量设置为 10( C = 10) 得到的日用电聚 类分析结果如图 12 - 13 所示。这十组聚类用户的 指标总结在表 3 中。




上述分析结果表明,大多数住宅用户具有类似 的用电模式,并且这些聚类用户的日用电量不高,用 电波动也较小。日用电量较大且波动较大的聚类用户比例相对较小,其中均方值最大的 d 类用户的比例仅为2.43%。
将三个聚类分组( C = 3、8 和 10) 的关键指标总结在表 4 中。
表 4 中“上层聚类”是指聚类结果中具有最大日用电量的聚类用户组; 同理,“下层聚类”是日用 电量最低的聚类用户组。
当 C = 3 时,上层聚类的 日用电量为 34. 4 千瓦/时,占总用户比例为14. 71% ; 下层聚类的用户占比为 55. 77% ,平均日用电量为6.98 千瓦/时。当聚类数量增加到10 时,上层聚类用户占比降至 2. 43% ,下层聚类用户占比 为 23. 81% 。
虽然较独特的用电模式的住宅用户比 例很小,但这些群体的潜在重要性不容忽视。识别这些具有独特用电模式的小用户群并提取其行为特征对于智能电力决策制定具有重要意义,包括定制营销和需求管理。

结论
本文阐述了基于智能用电的服务架构和电能数据采集系统的结构,探讨了中国低压住宅用户的日用电模式,提出了一种基于日用电量的低压住宅用户聚类过程模型。
该聚类模型包括四个阶段: 数据收集、数据清理和预处理、聚类验证和聚 类分析。
本文随后将该聚类模型应用于 1312 个低压用 户日用电量的分析研究中。在数据清理和预处理阶段,识别并移除了非住宅用户,数据缺失住宅用户和零使用住宅用户。然后使用模糊聚类有效性指数( PBMF) 来确定适当数量的聚类。
通过 FCM 聚类分析,将聚类数量设置为 3、8 和 10 时,并分别获得其聚类分析结果和典型的用电模式。
未来的研究将着重于将用电时间间隔切分至更细的时间段,这将更有利于确定更加详细的用电模式以及识别低压用户更准确的用电模式。
(来源:《信息技术》,此处仅供学习和交流,版权归原机构所有)
瓦特和比特
“瓦特和比特”致力于打造国内最专业有趣的能源电力&数据分析学习社区,集结能源行业优秀的业务专家和数据分析大咖,为数据分析从业者和能源从业者提供一种全新的能源电力&数据分析交流方式。
案例|电力系统基于大数据的短期负荷预测
从大数据分析角度,探讨电力设备状态检测与评估
小瓦君提示:关注“瓦特和比特”,学习最新的电力数据技能,为你热爱的工作打开新的视野~同时也欢迎从事不同岗位的电力人,公众号留言,跟小瓦君一起分享你的“电力人生”😊
瓦特和比特
有趣的分析在等你长按扫码可关注

