基于 Dueling DQN 算法的列车运行图节能优化研究- 大数跨境

首页

基于 Dueling DQN 算法的列车运行图节能优化研究

城市轨道交通网CCRM

2025-03-13

本文发布已获得《都市快轨交通》授权

原文发表于《都市快轨交通》

第 37 卷第 2 期 2024 年 4 月

如有转载请联系版权方，标明出处

刘飞1，唐方慧1，刘琳婷1，胡文斌2，哈进兵2，钱程2

1研究背景

列车运行图节能优化通过调整区间运行时间、停站时间、发车间隔以及折返时间等，优化多列车协调运行，提高再生制动能量的利用效率，可以降低地铁牵引能耗[1]。根据最小运行时间的原则，ZHANG等重点关注站间运行时间的优化分配，以减少牵引能量[2]。吴承泽综合考虑了轨道交通运营公司的运营成本和乘客的乘车体验，针对列车牵引节能问题，设计了基于深度强化学习的列车区间运行时间优化方法[3]。沙淼等应用极大值原理，导出了列车节能运行的工况，并重点分析了列车运行时间和方式对能耗的影响[4]。

CHEN等提出了综合优化方法的节能列车控制和直流牵引供电系统模型[5]。SUN等考虑了速度限制和坡度的情况，通过调整相邻列车在非制动阶段的运行速度曲线来吸收制动列车的制动能量[6]。CAROTENUTO[7]和WU等[8]提出了均衡度指标，建立描述轨道交通实际运营中动态客流需求的均衡度的指标，对换乘站瓶颈进行优化，减少其乘客等待时间。HASSANNAYEBI等以最小化乘客等待时间为目标，使用鲁棒优化方法使乘客等待时间减少了22%[9]。

LIU等在此基础上以列车能耗为优化目标，设计启发式局部搜索算法寻求节能区间运行时间最优解[10]。YIN等则提出了一种基于拉格朗日松弛的启发式时间表优化算法，通过改变列车时刻表在降低乘客等待时间和降低运营成本之间达成最佳契合点[11]。时刻表节能优化调整通常会导致乘客换乘时间和线路换乘衔接、乘客等待时间以及延误调整等与原时刻表出现较大偏差，从而影响乘客体验[12]。实际高客流地铁线路中存在的列车延误、计划运行图贴图率低等问题，导致地铁节能运营时刻表节能效率下降，以及延误线路的实际到发时刻和衔接线路列车计划时刻表劣化，导致乘客等待时间延长等，针对这些问题进行深入研究，对于现实运营过程中节能运行图应用和推广，具有一定的理论和应用价值。

2模型建立

2.1牵引供电系统时变模型

地铁牵引供电系统是个复杂的时变网络，在多车运行的过程中，列车之间存在能量传递。

图1中，当列车i+1和列车i–1的牵引阶段能和列车i的制动阶段重合时，列车i的回馈能量被列车i–1和列车i+1利用。因此通过调整列车区间的运行时间，增加同一个供电分区中多辆车牵引和制动的重叠时间，可以有效提高再生制动能量吸收率，降低牵引能耗。

如图2所示，为了精确计算实际线路能耗，采用节点导纳矩阵和牛顿-拉夫逊法对地铁的牵引供电系统进行潮流计算建模，通过导入实时客流和实际运行时刻表，完成线路的实时能耗计算。其中，牵引变电所等效为理想电压源串联电阻的戴维南等效模型，列车视为动态功率源。接触网/接触轨、回流轨、接地网等效为电阻，建立供电网节点导纳矩阵。对于一个含有k=2(m+n)个节点的直流牵引供电系统，建立节点电压U=[U1,U2,…,Un–1,Un]T，节点电流I=[I1,I2,…,In–1,In]T，其中m表示上线列车数，n表示变电站节点数，则节点导纳方程具体形式可以表示为

式中，Y(t)、U(t)、I(t)分别表示t时刻牵引供电系统的节点导纳矩阵、各节点电压、各节点电流。导纳矩阵中对角线元素Yii(t)为节点自导纳，Yij(t)为两节点间的互导纳。对于式(1)，针对变电站节点和列车节点，还需要补充k个辅助方程，见式(2)。对于m个变电站节点来说，每个变电站可列出如下辅助方程(以第j个变电站为例)对于n个列车节点来说，每个列车节点可列出如下辅助方程(以第j个列车节点为例)

式中，Uj(t)和Uj′(t)分别为第j个节点在接触网和走行轨上的节点电压，Ij(t)和Ij′(t)分别为第j个节点在接触网和走行轨处的注入电流。Us为戴维南等效模型的开路电压，Req为戴维南等效模型的等效内阻，Pj(t)为该列车节点在当前时刻下的功率，Umax为接触网网压上限值。对整个牵引供电系统进行潮流优化计算，使牵引变电所总能耗最小

式中，Utdci()表示第i个变电站节点的直流母线电压，Idci()t表示第i个变电站节点的直流母线电流，Edc表示目标函数为牵引变电所能耗最小化。

2.2考虑乘客乘车时间的运行时间调整分析

根据地铁公司提供的客流数据，绘制其时间-空间-客流三维分布图，如图3所示。

为了刻画动态客流的情况，对于某一时间间隔t，其中t∈{1,2,…,T}，n为线路站点总个数，整个轨道交通系统中所有乘客的交通出行量(origindestination，OD)可以用一个矩阵A(t)进行描述，

有式中，n为站台数，1≤i≤n；q[i,j](t)表示第t个时段由站i到站j的乘客总数；b[i,j](t)为OD转移比例。

所在时段t内，整个系统内客流的均衡度指标可以表示为η(t)，其中λ(t)是所有乘客的OD需求的均值。而(n2–n)/2是线路上乘客的所有OD对的总数，有式中，f[i,i](t)表示从车站i到车站j且在时段t到达车站i的乘客数量。从时间间隔1到时间间隔T，所有乘客OD需求间的客流均衡度指标可以表示为

式(7)假设乘客从站台1到站台3，乘车时间和等待时间如图4所示。

针对快慢车运行线路，引入乘客乘车0-1变量，

如下表示引入0-1变量之后，乘客在不同情况下的等待时间G[i,i′](t)为式中，v是无穷大数，K[i,i′](t)是乘客q[i,i′](t)实际乘坐的车辆编号。

乘客总出行时间F为式中，F1是乘客总等待时间，F2乘客总乘车时间，F是乘客总出行时间。

3基于DuelingDQN的运行时间优化算法设计
本研究的目标是列车全线能耗最低和乘客平均出行时间最小，同时保证到达换乘站运行时刻和全线总运行时间基本不变，因此进行马尔可夫迭代过程建模。

3.1智能体

将各区间调整时间Δti设计为–10～10s之间的整数，即动作空间为[–10，10]中的整数，智能体将当前状态输入Q网络获得动作at，然后与下一站环境交互，获取下一站的状态并做出决策。

3.2环境

列车全线共n+1个站、n个站间，将智能体每次动作后的站台号i、时间变化总和ΔTi、乘客数量pi、换乘站标志位Fi作为环境的状态Si(i,ΔTi,pi,Fi)，即一个四维向量。将列车的运行状态作为一个状态转移过程

3.3奖励函数设计

3.3.1列车总能耗

列车的牵引变电所能耗目标函数f1表示为

式中，Δti为从第i个站间运行时分在原计划时刻表上的变化量，Ei(Δt1,Δt2…Δtn)为第i个区间调整后牵引变电所在时刻表变化后的总能耗。3.3.2乘客出行时间为了减少乘客平均出行时间，结合2.2节中式(9)乘客总出行时间计算公式，将目标函数f2表示为

式中，Δti为从第i个站间运行时分在原计划时刻表上的变化量，

为所有区间乘客出行时间变化总和。

3.3.3考虑乘客换乘等待时间与总运行时间

本研究以运行时刻表节能优化前后总运行时间、列车换乘衔接关系不变，换乘时刻偏差、乘客换乘时间、乘客等待时间最小为优化目标，对节能时刻表优化计算做严格约束，提高乘客出行舒适度，实现节能时刻表无感切换。为了限制列车到达换乘站和终点站时刻的变化值，利用目标函数f3对其进行表示

3.3.4算法流程图

基于DQN算法的列车站间运行时分优化流程见图5。1)从经验池中选择数据组

，将这组数据状态st输入预测Q网络计算得到这组数据的Q值，通过at找到对应的Q(st,at;θ)，将这组数据状态st+1输入目标Q网络计算得到最大Q值

。

计算损失函数，有

式中，γ为折扣系数；a为Q网络预测输出所有动作；a′为Q网络的输出所有动作；θ为预测值Q网络参数；θ–为θ网络参数。另外，当st+1的标志位Ft+1为终止状态时，

预测Q网络的反向传播训练算法选取自适应时刻估计方法(adaptivemomentestimation，Adam)，计算预测Q网络每个参数θ的自适应学习率，加快神经网络收敛，并对预测Q网络的参数θ进行更新[13]。4)目标Q网络采用反向传播训练算法选取均方根反向传播(RMSProp)方法，采用每50回合对目标Q网络参数θ′=θ进行周期迭代更新，提高计算速度，令θ′=θ[14]。5)神经网络激活函数。预测Q网络和目标Q网络的激活函数均选取Leaky-RELU函数，带泄露修正线性单元(Leaky-RELU)函数是经典以及广泛使用的RELU激活函数的变体，该函数输出对负值输入有很小的坡度[15]。

3.3.5DuelingDQN网络结构设计

为了加速DQN收敛，采用DuelingDQN算法。DuelingDQN通过将动作分解为目标Q值计算和动作选择两步，可以消除Q值过估计的问题。如图6所示，DuelingDQN网络的输入与DQN相同，但是输出不同。DuelingDQN算法输出两个分支，一个是该状态的状态价值V，另一个是分支预测与状态相关的动作优势价值A。两个分支合并得到每个动作的Q值。计算公式为

式中，a是动作；α为神经网络参数；α和β为全连接层参数，θ为卷积层参数。在DuelingDQN中，Q值进行中心化处理，将优势价值A表示为某个动作的优势价值减去该状态下所有优势价值的平均值，Q值表示输出下一次时刻表的调整时间。

4实例分析

以苏州轨道交通4号线为例，对DuelingDQN算法优化区间运行时间，进行实验验证。

4.1地铁实际线路数据

地铁公司实际提供线路数据如表1～2所示。

4.2优化参数设计

结合实际线路数据，设计优化仿真参数如表3所示。

4.3优化结果分析

对全天运行图进行分析，为了侧重节能设置式(15)中k1=5，为了适当减少乘客平均出行时间设置k2=0.2，为了保证总运行时间和到达换乘站时刻基本不变，设置k3=0.2。优化结果如图7～9所示。

对比回合奖励曲线发现，随机算法几乎不能收敛，而在图7的其他4种算法中，最优解相差不大，DuelingDQN收敛得最快，约在500回合左右就能收敛。对比总牵引能耗曲线发现，除了随机算法，其他算法均可达到降低牵引能耗的目的，且能耗值趋于稳定，其中DuelingDQN降低能耗的效果最为明显。乘客平均出行时间均有所下降，下降幅度在0～2s之间。最后整理上下行区间时间调整变化如图10所示，

优化列车区间运行时间发生变化，但是保证列车时刻表在调整前后到达上下行末站时刻相同。将5种算法的最优解统计成表4，

展示部分站台的到站时间偏差数据，表4中全线回合总奖励指的是每回合一趟车每个站间的奖励函数之和。根据实验结果和表4统计，DuelingDQN方法的效果最优，其全线回合总奖励最大值为–51.6，能耗最小值为105451kW·h，比原时刻表的116534kW·h减少了11083kW·h，节能率达9.5%。在到达换乘站时刻偏差不超过5s范围内和到达终点站时刻不变的情况下，乘客平均出行时间减少了1.02s。

4.4实验结果分析

2022年10月，项目组采用上述方案，对苏州轨道交通4号线进行优化时刻表节能对比试验。节能对比结果如表5，在保证调整前后全线总运行时间保持不变的情况下，相对于原始时刻表，优化时刻表牵引总表计日能耗下降5.27%，车公里能耗下降4.99%。

5结论

本研究设计了一种基于DuelingDQN算法和地铁供电系统潮流计算模型相结合的列车区间运行时间优化方法，根据动态客流建立了实时客流时空分布统计模型，综合考虑地铁运营公司的节能优化和乘客的乘车体验，设计多目标优化函数。采用马尔可夫决策过程设计了深度强化学习算法，对线路实际运行图、动态客流进行离线和在线学习，在总列车运行时间、换乘衔接、换乘时间不变、乘客换乘时间、出行时间和时刻表变动最小等多约束情况下优化列车区间运行时间，实现节能运行图自动编制。最后基于苏州轨道交通4号线列车进行了优化仿真和实验，优化后在保证列车全线区间运行时间不变的情况下可降低5.27%的牵引能耗，验证了算法有效性。

消息由中国城市轨道交通网CCRM整理编辑，文章来自都市快轨交通，涉及版权请联系删除，如有转载请标明出处）