本文发布已获得《都市快轨交通》授权
原文发表于《都市快轨交通》
2025年 第1期
如有转载请联系版权方,标明出处
朱国1,章澜岚1,刘家俊2,杨皓帆2,殷立超2,张宁2,张恒文3
0引言
随着城市化进程的加速,城市交通拥堵问题日益突出,城市轨道交通作为缓解拥堵的重要手段,规模与网络化程度不断提升。乘客路径选择估计作为票务清分、客流分析的关键,传统方法如交通调查,耗时耗力且数据质量难以保证;而新兴技术如5G、移动支付等使得更加多元的大数据能够被城市轨道交通系统采集,这些数据可以作为分析乘客出行选择行为的有力支撑,是进一步研究更加准确、高效的乘客路径选择估计方法的基础。目前,有关城市轨道交通乘客路径选择估计方法的研究主要包括基于概率确定技术的方法[1]和基于用户轨迹重构的方法[2]两类,其中,基于出行轨迹重构的方法是指通过对乘客的不完整出行信息进行分析并与交通网络的已有信息进行匹配,从而推断出其在交通网络中的路径选择,其数据基础主要是手机信令数据[3]。目前手机信令数据在应用于地铁系统进行用户出行轨迹重构时的主要难点在于信令数据存在定位失准,以及如何利用OD对间有效路径上部分手机用户的选择推断所有乘客的路径选择的问题。本文首先建立城市轨道交通网络物理模型并构建有效路径搜索算法,然后基于手机信令数据,通过路径相似性计算完成乘客种子路径选择概率估计,最后综合利用AFC数据、列车时刻表数据构建基于OD对乘客旅行时间分布和站点出站客流时间分布的乘客路径选择概率扩算系数计算方法,得到轨道交通系统中所有乘客的路径选择概率。
1城市轨道交通拓扑网络模型
1.1城市轨道交通网络拓扑分析
“拓扑”指将实体抽象成与其大小、形状无关的“点”,把连接实体的线路抽象成“线”,表示这些“点”“线”之间关系的图即为拓扑结构图。城市轨道交通网络是由地铁站点和轨道线路构成的网状拓扑结构[4]。本文将轨道交通网络中的地铁站点视为拓扑结构中的“点”,站点间的通行线路视为“线”,在换乘站设置虚拟站台作为两条线路的中间“点”,将换乘线路作为连接换乘站内部“点”的“线”,如图1所示。
网络中节点的连通性和距离可表示为
式中,dij为站点i,j的有向连边的长度;aij为站点间的距离;cij为0–1变量;若i,j直接连通,cij=1,反之,cij=0。由此得到的拓扑网络结构式为
式中,V为网络节点集合;A为网络连边集合;Mc为网络中各个节点的邻接矩阵;Md为节点间的距离矩阵;f为拓扑网络中的“点”与“线”构成的有向图的映射关系。
1.2城市轨道交通网络模型构建
城市轨道交通网络由“网”“线”“站”3个层次构成,其要素之间的关系为式中,L为网络线路集合;k为网络线路数量;i,j分别为站点序号和线路序号。由
式(3)各层次要素间的关系以及网络拓扑有向图G(V,A)可以得到城市轨道交通网络模型为
式中,N表示城市轨道交通网络;δ(L,V)为式(3)中网络要素间的空间逻辑映射关系。
1.3网络OD对间的可行路径搜寻
1.3.1广度优先搜索算法
广度优先搜索算法[5]是连通图的一种遍历策略,其基本思想是从图中的一个顶点开始,辐射状地优先遍历其周围较广的区域,它并不考虑结果的可能位置,彻底地搜索整张图,直至找到结果为止。算法的基本流程为,从根节点开始,沿着树(图)的宽度遍历树(图)的节点。如果所有节点均被访问,则算法终止。
1.3.2路径筛选及可行路径集构建
在城市轨道交通网络中,乘客出行的路径选择不仅考虑路径的出行时间或距离,也会考虑出行的便利程度。因此,在构建网络OD对的可行路径集时,需要同时考虑路径的出行时间或距离和换乘次数。在本研究中,通过设置路径的最大换乘次数剔除乘客不可能选择的路径。因此,已知需要研究的OD信息,即可通过此方法得到相应的可行路径集,进而可以针对这些路径的选择概率进行估计。
2基于手机信令数据的种子路径选择概率估计
2.1手机信令数据特征分析
手机信令数据主要是由手机在蜂窝小区的基站间切换所产生的,城市轨道交通网络中产生的信令数据主要包括移动台识别码(mobilestationID,MSID)、时间戳(timestamp)、移动基站编码(basestationID,BSID)以及信令事件编码(eventID)等[6]。城市轨道交通移动通信网络是城市移动通信网络的一部分,该网络通过专有基站小区进行覆盖,并采集城市轨道交通网络中乘客出行过程中产生的手机信令数据[7]。在基站的布设和分布上具有以下特征[8]:①轨道交通站点间的基站覆盖区域交叉范围小;②地面基站和地下基站之间不会产生交叉干扰;③手机用户在乘坐列车经过轨道交通线路轨行区时,可以通过位置更新和信令数据进行识别。
2.2移动用户出行轨迹重构
通过分析手机用户的信令数据,可以了解乘客在城轨交通网络中的出行情况[9]。首先,将信令基站与地铁站的经纬度信息进行匹配,通过比较两者之间的距离和相似度等指标,可以找到与该乘客信号强度最匹配的地铁站[10],从而确定乘客所在的位置。之后通过查询网络线路站点关系字典了解乘客在网络中的出行轨迹。将乘客在不同时间段内的位置信息进行整合和分析,可以重构出乘客在网络中的出行轨迹。
2.3路径相似性计算及乘客路径匹配
2.3.1路径时空相似因子定义
为了实现乘客的正确路径分配,引入路径相似因子CFp评估基于手机信令数据重构后的出行轨迹与已知的OD对间可行路径之间的相似性,将乘客分配至与其重构轨迹相似度最高的路径上。
式中,CFs、CFt分别为重构出行轨迹与OD对ω间可行路径的空间和时间相似度,具体表达式如式(6)和式(7)所示;λ1,λ2分别为空间和时间相似度的对应的权重系数。
中,πx为在路径π上乘客x重构出行轨迹;R(i,j)为站点i和站点j之间的可行路径集合;qω为OD对ω间的可行路径;,xLqw p 为重构乘客出行轨迹与可行路径间的空间区间交集的距离;,xLLqw p 分别为重构乘客出行轨迹和可行路径的距离;,xTqw p 为重构乘客路径的出行时间区间与OD对ω间可行路径上列车运行时间区间的交集的时间长度;xTp 为乘客出行时间区间长度;Tqw为可行路径上列车运行时间区间长度;γ和η为正常数。
2.3.2重构出行轨迹与OD对间可行路径匹配
通过计算移动用户的出行轨迹与其对应OD之间可行路径的相似度因子,将乘客匹配到最合适的路径上,从而确定移动用户在网络中选择的出行路径。通过进一步统计不同路径上的移动用户乘客人数,计算出在不同OD对之间选择路径的概率[11],即
式中,nj为移动用户乘客在OD对ω选择第j条可行路径的人数;nω为OD对ω上的移动用户乘客人数。
3基于AFC和列车时刻表数据的种子路径选择概率扩算系数计算
基于信令数据的乘客出行的种子选择概率只能代表部分用户的选择概率。因此,基于自动售检票系统(AFC)[12]数据及列车时刻表数据对已有的种子概率进行扩算,推测网络中所有乘客的路径选择概率。
3.1OD对旅行时间分布估计
对于某个OD对,可能有多条可行路径,首先需要对路径的旅行时间分布进行估计。某个路径的旅行时间Ttr主要包括进站时间To、车内时间Tr、出站时间Td,若有换乘行为,则包含换乘时间Tx。假设每个组成部分都服从独立的高斯分布,由独立高斯分布的可加性可知,乘客的路径旅行时间分布也服从高斯分布。为估计上述高斯分布中各组成部分的参数,首先依据路径的空间特征,将乘客出行路径分类为无换乘单路径、单换乘单路径、多换乘单路径、多路径4类,以便对路径时间的组成进行分解分析。To和Td可以通过将无换乘单路径出行的乘客AFC数据与列车时刻表匹配得到,随后再利用单换乘单路径出行的乘客AFC数据,根据推测出的站点To和Td信息,进行乘客与列车的匹配,根据乘客上下车时间得到Tx,可以结合列车时刻数据得到Tr。将4个分布相加即可推断路径的旅行时间分布,进行OD对旅行时间分布和站点出站客流的时间分布估计[13]。以第2.3.2节中计算的OD对间网络移动用户路径选择概率prj作为种子选择概率矩阵,可得OD对的旅行时间分布的高斯混合模型表达式为
式中,j为OD对ω间可行路径的编号;J为OD对ω间的可行路径数;N(,)mrrjs 2j为路径rj的旅行时间分布。
3.2站点出站客流时间分布估计
同样利用OD对间网络移动用户路径选择概率prj计算某时间段Δt内的OD对ω中路径rj的乘客人数,即
式中,Dω(Ik)为时间间隔Ik内在站点vi进站的人数,Ik长度即为Δt。式(11)用来表示在时间段h内从站点vi进入地铁网络的乘客选择路径rj,并在时间段t内从站点vj出站的概率。其中参数的选取如图2所示,t+、t–为起讫点站时间轴上t+ ¢ 或t- ¢ 所在区间的前后端点。
后,可以计算出时间间隔Ik内站点vi到vj的估计出站客流量EFtw *(,),即
式中,jar为OD对ω之间路径rj的种子选择概率的修正比例系数。
3.3融合旅行时间和出站客流的双目标优化模型
使用3.1小节和3.2小节所得的OD对旅行时间分布以及出站客流的时间分布,可以计算OD对ω之间路径rj的种子选择概率的修正比例系数jar。OD对间的估计旅行时间分布b ˆ()t、出站客流的时间分布*EFIw(,)k可分别表示为
为了得到最优的修正比例系数以使估计路径选择概率最接近真实值,本文构建估计和观测的OD对旅行时间分布、出站客流的时间分布之间的综合差异最小化的符合概率约束的优化模型。其中,旅行时间分布的差异使用KL散度度量,而出站客流的时间分布使用均方根误差(RMSE)计算。KL散度及RMSE的计算公式分别为
中,β(t)为OD对观测旅行时间分布,将其按照固定时间间隔离散为K个区间;Eω(Ik)为时间区间Ik内出站客流量观测值。随后,计算估计和观测的旅行时间分布和出站客流的时间分布之间的综合差异最小化。使用min-max归一化方法,分别计算两者的最小值,再使用二者与各自的最小值的差与本指标最大最小值之差的比例之和作为目标函数,即
式中,ω1和ω2分别为旅行时间分布和出站客流的时间分布所占综合差异度的权重,由旅行时间和出站客流对模型的影响程度确定。使用scipy中的序列最小二乘法(SLSQP),求解使得优化目标函数最小时的参数,即jar。
4案例分析
截至2022年底,南京地铁已开通地铁线路12条,总长449km,换乘站共16座,构成覆盖南京全市11个市辖区的地铁网络[14]。本文选择小市站到新街口站与新街口站到小市站作为研究的OD,由于两OD的可行路径在行程时间上较为接近,仅根据行程时间难以对乘客路径选择进行判断,在实际的路径选择判断过程中具有典型性。图3中表示了这两个OD的4条可行路径。
4.1基于合成AFC数据的模型有效性验证
由于乘客的真实路径选择情况无法通过确切数据得到,因此本文基于乘客出行链逻辑,合成AFC数据,使用这些数据对模型有效性进行验证。将小市站到新街口站作为OD对1,将新街口站到小市站作为OD对2。OD对1中两条路径为Path_1_1:96→26→9、Path_1_2:96→14→9。OD对2中两条路径为Path_2_1:9→26→96、Path_2_2:9→14→96。按照如表1所示的参数设置生成路径时间的估计分布,如3.1节所述,To与Td可利用真实AFC数据得到,而Tx和Tr分别通过列车时刻表和时间约束计算得到。路径种子选择概率根据手机用户轨迹重构与路径匹配得到,所采用的手机信令数据来自中国移动运营商,渗透率为67%。然后,基于合成的AFC数据估计OD对旅行时间分布,进而估计路径选择概率。由于路径真实选择概率无法被观测,验证实验中通过预先定义的真实值作为基准,将估计的概率与路径真实选择概率进行比较以验证模型的性能。本实验共生成2000条AFC数据,得到两个OD4条路径的扩算系数、估计选择概率和真实选择概率,如表2所示。结果表明估计误差均在5%以内,模型具有有效性。
4.2模型敏感性分析
通过模拟估计偏差对模型性能的影响评估模型敏感性,包括旅行时间和样本数量两个方面。并在此过程中将传统的基于KL散度的单目标优化方法[4]与本文提出的结合KL散度和出站客流分布的双目标优化模型进行对比。行程时间方面,将偏差添加到OD对乘客路径旅行时间的标准差中以模拟有偏差的旅行时间,取偏差百分数r=±10%,±20%,±30%,修改后的标准差σ*=σ×(1+r)。生成带偏差的AFC数据,模型估计得到的选择概率与预设的真实选择概率的相对误差如图4所示(展示Path_1_1,Path_2_1)。结果表明:当偏置标准偏差达到真实值的30%时,本模型对偏置输入具有鲁棒性,相对误差均在10%以内。在实验中,双目标优化的实验结果均优于或等于单目标优化,且从图4中可以得出,双目标优化对于数据偏置的敏感程度低于单目标优化,稳定性更佳。输入不同数据量,模拟样本数量偏差。分别输入500、1000、3000、5000和10000条数据,合成数据的模型估计选择概率如图5所示。结果表明:当样本量不同时,本模型具有鲁棒性,相对误差均在10%以内。
4.3基于真实AFC数据的模型验证
在验证了模型有效性和鲁棒性的基础上,本文利用南京地铁工作日和周末的AFC交易数据,测试所建模型,并与使用信令数据估计的路径选择估计先验分布进行对比。实验结果如图6所示,估计和观测旅行时间分布的对比如图7所示。结果表明:根据本文所提出的方法计算所得的乘客旅行时间参数、路径选择概率能较好地拟合真实情况下的乘客旅行时间分布,表明本文提出的方法能较好地还原乘客在地铁线网中的出行情况。同时,与先验分布相比,根据本模型估计的路径选择概率计算的OD旅行时间分布更加吻合真实的OD旅行时间分布。
5结束语
本文通过城市轨道网络拓扑结构、地铁手机信令数据对乘客轨迹进行分析,并针对信令数据无法覆盖所有乘客的问题,通过构建融合旅行时间和出站客流的双目标优化模型求解扩算系数,实现轨道交通乘客路径选择估计,实验结果表明:本文所提的纯数据驱动的方法能够有效并准确地估计乘客在网络中的路径选择行为,并且在数据输入存在偏差时,模型具有稳定性。
消息由中国城市轨道交通网CCRM整理编辑,文章来自都市快轨交通,涉及版权请联系删除,如有转载请标明出处)

