本文发布已获得《都市快轨交通》授权
原文发表于《都市快轨交通》
2025年 第2期
如有转载请联系版权方,标明出处
张鹏羽1,李正中1,张翕然1,王宇嵚2
0引言
城市轨道交通(简称“城轨”)作为城市重大基础设施,在优化居民出行结构、缓解城市交通拥堵、实现城市经济社会可持续发展等方面发挥着举足轻重的作用。客流量作为反映其服务能力与综合效益的重要指标,具有规律复杂、变化多样的特征,因此精细化分析多类影响因素与客流量的影响关系对优化TOD规划和改善地铁运营效益具有极为重要的现实意义。
目前对于城轨客流影响因素分析方面的研究内容较丰富,在讨论空间异质性方面,张旭[1]利用地理加权回归模型(GWR)研究了精细化土地利用数据与北京轨道交通车站工作日早晚高峰客流量间的互动关系;马壮林等[2]选取车站属性、连接性和建成环境三方面变量,运用多尺度地理加权回归模型(MGWR)构建客流特征分析模型,阐述工作日早晚高峰下城轨车站客流量的影响因素及其相互作用;李毅军等[3]基于5Ds准则将建成环境特征按照建筑面积、线网可达性、交通条件、职住数量分类,提出利用主成分分析-地理加权回归方法(PCA-GWR)讨论上述因素对城轨站点客流的影响;庞磊等[4]考虑建成环境、社会经济、站点属性与复杂网络特征四类影响因子,采用最小二乘法(OLS)、GWR及MGWR模型探究不同类型站点客流量影响因素及其影响程度。为了同时考虑时空异质性;Huang等[5]通过将时间效应纳入地理加权回归模型,开发出时空地理加权回归(GTWR)模型,探究加拿大房价与各因素间的影响机理;此后Ma等[6]验证了该模型在识别建成环境对公交客运量时空影响方面的有效性。在研究非线性影响方面,颜冉等[7]基于合肥市轨道交通站点客流构建梯度提升决策树模型(GBDT),分析了建成环境对城轨客流的非线性影响;YANG等[8]使用随机森林模型(RF)揭示了成都轨道交通一天中三个时段客流与建成环境要素间的非线性和时间异质性关系;纪柯柯等[9]基于梯度提升决策树模型探究了经济属性、交通便利性、建成环境三个层面影响因子对非常态客流量的非线性影响机制。现有研究表明以GWR、GTWR为代表的地理加权回归线性模型因其具有捕捉客流影响因素的时空差异性、直接解释性强等特点,在分析客流与影响因素间线性关系方面成果颇为丰硕,但该模型预设了二者关系的线性框架。以RF、GBDT为代表基于树的机器学习模型因其多维数据适应性高、迭代优化性强等特点,在阐述客流及其影响因素的非线性关系方面应用较为广泛,但模型结果缺乏特征与时空解释性。SHAP模型常与机器学习模型联合运行增强解释性。综合上述研究主要存在以下不足:①影响因素选取全面性、综合性有待提升,数据表征指标划分精细度欠缺;②较少同时考虑多类因素对客流影响程度的时空异质性与非线性关系,导致某些影响细节差异信息被忽视,难以精确指导城轨运营规划。鉴于此,提出采用GTWRGBRT-SHAP融合模型研究各类影响因素与城轨客流之间的影响机理,在模型构建过程中同时考虑时空异质性与非线性关系,为城轨差异化管理、交通政策应用提供精准有力的指导。
1研究范围与数据描述
1.1研究范围
以天津市轨道交通为研究对象。截至2023年7月初,天津市轨道交通已开通9条运营线路,共计181座车站,运营里程达286km,途径和平区、河西区、南开区等11个市辖区,初步形成放射性骨架网络。现有多数研究将城轨影响域设定为以车站为中心的400~800m范围[10-12],考虑天津市站间距及出行特征特点,将城轨车站800m范围与泰森多边形的重合区域作为研究影响区域。天津市轨道交通线路、车站与其缓冲区分布如图1所示。
1.2数据描述
城轨客流数据来自天津市2023年3月20日—3月24日(周一至周五)AFC刷卡数据,研究时间均为多云天气,未出现降雨等特殊气候,数据结构包括卡号ID、进出站站点、进出站时间。通过对原始数据清洗,筛选出近1100万条有效刷卡次数,分别统计得到181座车站工作日早晚高峰、总客流量。城轨客流的影响因素繁多,宏观层面包括建成环境要素、交通政策等,微观层面有服务水平、乘客出行行为、车票价格等[13],建成环境因影响直接、构成复杂而被视为主要影响因素,从人口社会经济、土地利用性质、车站自身特征、其他交通属性4个层面共收集14个变量,如表1所示。
1.2.1人口社会经济
人口密度来源于LandScan人口数据集,对1km精度的人口空间分布栅格数据进行处理得到街道层级的人口密度。通过爬取链家(https://tj.lianjia.com/)网站天津市11区的居民小区房价信息,计算车站缓冲区内平均房价。
1.2.2土地利用性质
通过高德地图API获取各站缓冲区内的兴趣点(pointofinterest,POI),共得到248906条POI数据,数据结构包括名称、坐标、地址、类型等。选取代表居住类型、办公类型、教育设施、医疗服务、购物休闲、旅游景点、交通设施的七大类POI。引入香农熵指数E衡量车站周围土地利用混合程度:
式中,Pj为该区域第j种POI数量占POI总数的比例;Nj为POI类别数;J为POI种类。
1.2.3车站自身特征
城轨网络可视为一个有机整体,网络拓扑指标度和介数衡量各站在网络中连通性和传递性的差异,利用Python构建天津市轨道交通车站拓扑网络计算各车站的度中心性Di和介数中心性Bi:
式中,aij为与站点i相连的车站数量;K为城轨网络总车站数量。
式中,nsit为经过站点i且为最短路径条数;gst为连接站点s、t的最短路径条数。
1.2.4外部交通属性
考虑快速路、主干路、次干路、支路四级道路,基于开放街道地图(OpenStreetMap,OSM)与ArcGIS获取各站缓冲区内道路密度。交通设施用地为除城轨车站以外的公交站、长途汽车站、火车站、机场等交通运输场所。
2研究方法与模型
为了较好地捕捉影响因素变量与客流量之间的时空关系,首先运行GTWR模型,输出影响系数向量,再将其作为GBRT模型的输入,调整参数训练达到最佳拟合,最后结合SHAP模型分析二者间的非线性关系。
2.1GTWR模型
GTWR模型基本公式为
式中,(ui,vi,ti)为样本点的时空坐标;Xik为样本点i第k个影响因素变量;Yi表示样本点i客流量;β0(ui,vi,ti)为截距;βk(ui,vi,ti)为客流量与影响因素变量之间的回归系数;εi为残差项;W(ui,vi,ti)为时空权重矩阵;n为样本的数量;XT指X矩阵的转置;对角元素αin为(ui,vi,ti)的空间-时间距离函数,对应于校准与样本点i相邻的加权回归时的权重;dijST表示时空距离;u、λ是为平衡测量其各自度量系统中时间、空间距离不同影响的比例因子。特别地,定义时空比率参数τ=μ/λ。与每次观测参数估计固定的OLS模型相比,GTWR模型的系数βk(ui,vi,ti)衡量了观测样本的时空变化,同时考虑了空间和时间的非平稳性。图2显示了时空客流点位的距离模型,(u(λ),v(λ))为客流量发生点所在的交通分析区(TAZ)位置坐标,t(λ)为测量客流量的时间。
2.2GTWR-GBRT混合模型
GBRT为基于回归树的Boosting族机器学习技术,主要原理是选择部分样本和特征组合成基本分类器,通过学习已有模型残差生成新的模型,进而使新模型目标函数值最小化[14]。GTWR-GBRT模型中用x′替代了影响因素变量x,即
式中,ξ为收缩参数;ρm通过最小化损失函数L=(y–f(x))2的期望值来估计;cjm为对应区域Rjm的常数值;Rjm表示输入空间被树分割的不相交区域,x∈Rjm时I为1,否则为0;X′为上一步GTWR模型输出的影响系数向量。
2.3GTWR-GBRT与SHAP联合模型
SHAP模型基于合作博弈论思想可以计算特征对模型输出的边际贡献,通过SHAP值以数值的形式明确了各个特征的边际贡献[15],其可与上述GTWR-GBRT机器学习模型联合使用,生成部分依赖图可视化影响因素对客流的非线性影响,增强模型的可解释性。
3研究结果及分析
3.1模型回归结果分析
首先,利用回归分析中的步进方法筛选变量,变量筛选条件为经过F显著性检验(要输入的F变化量的概率≤0.05,要除去的F变化量的概率≥0.10),筛选出人口密度、居住类型用地、办公类型用地、教育设施用地、购物休闲用地、交通设施用地、土地利用混合熵、度中心性、介数中心性9个变量。其次,对上述变量进行空间自相关性与共线性检验,MoranI指数、z得分、p值、VIF值结果如表2所示,
除度中心性外,其余变量空间正相关性明显,各变量多重共线性不明显,纳入模型中训练。构建时空加权矩阵前需对测量单位天、米在计算时-空距离时进行协调,参数τ可平衡不同的空间和时间单位,因此在实施GTWR模型前优化,通过验证程序获得合适的拟合优度参数值,应用本实例数据集的参数选择结果如图3所示,
得到参数τ的最佳取值为30。选用拟合系数(R2)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)3个指标比较衡量各模型的拟合优度。
式中,yi¢ 为拟合值;yi为真实值;y为真实值的平均;I为样本数。为验证GTWR-GBRT-SHAP模型相比于常用在城轨客流因素分析的GTWR、GBRT、GWR模型优势,训练各模型并输出结果比较优劣。表3显示了早晚高峰时段客流不同模型的R2、RMSE、MAPE结果,对其分析发现,GTWR-GBRT-SHAP具有较高的R2值、较低的RMSE、MAPE值,R2相比于GTWR平均提高了近0.1,相比于GBRT平均提高了近0.05,该模型呈现出较优的拟合效果。考虑时空异质性的GTWR模型拟合性能优于仅考虑空间异质性的GWR模型,GBRT机器学习模型相比于前两者由于未受到线性约束的制约,表现出较好的样本适应能力,融合GTWR模型的时空异质性与GBRT模型的非线性,GTWR-GBRT-SHAP模型产生了最优的回归结果。
3.2影响因素时空异质性分析
城轨早晚高峰客流占据了全天客流的较高比例,考虑早、晚高峰时段的时间维度,基于模型输出结果从时空范畴探讨主要影响因素对于客流量的影响机制。由图4可知,人口密度对早高峰进站量的影响,除了在东丽区的大部分站点(2、4、10号线)和滨海新区部分站点(9号线)为负面外,其余均为正面促进作用,相比于早高峰进站量,人口密度对晚高峰进站量的影响较小,且在天津市西部区域为负影响。
在9号线东海路、会展中心、太湖路站的影响最大,可能与邻近终点站且滨海新区通勤者较为依赖地铁方式有关。从影响系数绝对值来看,人口密度对早高峰时段进站客流的影响程度大于晚高峰时段进站,在人口密集区站点要更加侧重晚高峰进站客流的吸引,同时提升站点周边人口密度对晚高峰时段的进站客流增加效果会更加显著。由图5可知,居住类型用地对早高峰进站量、晚高峰进站量的影响几乎全部表现为正面促进作用,尤其对天津市内六区的影响最为显著,主要原因为此区域居住人口较为密集、城轨出行优势明显。
此外,居住类型用地对早、晚高峰时段客流的影响程度无较大差异。办公类型用地对早高峰进站量的影响如图6(a)所示,几乎全为负面抑制作用,与天津市用地职住错位相符合,在北部区域的影响大于中部、南部,对9号线滨海新区邻近终点的6站仍为正面影响。而办公类型用地对晚高峰进站量的影响则全为正面影响,即办公类型用地越多,晚高峰进站量愈大,在南部区域及滨海新区的影响最为显著,如图6(b)所示。办公类型用地对于早、晚高峰时段客流的影响程度,在2号线及以南部(除9号线滨海新区邻近终点8站外)站点晚高峰进站客流所受影响效果大于早高峰。
如图7所示,购物休闲用地对早高峰进站量的影响既有正向作用也有负面作用,在北部区域以及9号线滨海新区9个站点为正面影响,9个站点中市民广场、泰达、塘沽、胡家园站的影响系数最大,这些站点附近购物休闲用地增加会明显提升早高峰进站量,其他区域均为负面影响;
与办公类型用地呈现出类似规律,对各站晚高峰进站量均为正向作用。可见购物休闲引发的乘坐城轨行为主要发生在晚高峰时段。介数中心性对早高峰进站量的影响,除了在3号线南站、杨伍庄、学府工业区站外,其余均为正面促进作用,即车站在城轨网络中最短路径传递性越高,早高峰进站量越多,对相反的3站而言,可能其他因素的影响作用更显著,超过此变量的抑制作用;而对晚高峰进站量,除9号线钢管公司、胡家园站外,其余均为正面促进作用,如图8所示。
从全线网来看,介数中心性对早、晚高峰时段客流的影响趋势无明显差异,但对早高峰时段客流的影响程度大于晚高峰时段,原因可能是通勤者更加关注早上上班最短路径的时效性。
3.3影响因素非线性分析
与预设影响因素与客流量间具有线性固定关系前提相区别,GTWR-GBRT-SHAP模型展现了二者更加符合实际的非线性关系。图9为5个主要影响因素与总客流量的部分依赖关系,存在着明显的非线性与阈值效应。就居住类型用地而言,如图9(a)所示,站点周边存在20个以下住宅POI时,对客流量为负面减少作用,住宅POI数量达到20个以上时为正面增加作用,同时当达到50个左右时对客流量的增加作用趋于饱和;
就办公类型用地而言,如图9(b)所示,站点周边存在4个以上办公POI时则对客流量有增加作用,但在办公POI数量达到10个、20个左右时这种作用转变为减少,可能由于在市内六区外产业园区附近,例如高新区站、学府工业区站,私家车、班车等交通方式比较常用;就交通设施用地而言,如图9(c)所示,当站点周边有10个及以上交通场所时,轨道客流量显著增加,一般而言交通枢纽的各类客流具有集聚效应;如图9(d)所示,土地利用熵与客流量间的正负关系不明显,但较高的熵指数对客流量的增加作用较大,尤其是当其达到0.8以上时,此类用地开发丰富完善,例如营口道站、小白楼站,吸引了较多居民前往;如图9(e)所示,介数中心性除个别站点外,整体而言对客流量表现为促进作用,与前文时空异质性分析得出的结论相符。
4结论
基于GTWR-GBRT-SHAP模型探索了城轨客流影响因素对客流的时空异质性与非线性影响作用,研究结果表明:
1)探究城轨客流及其影响因素间的互动关系时,融合线性回归模型与非线性机器学习模型的GTWRGBRT-SHAP模型可产生更优的拟合效果,同时捕捉到了时空异质性与非线性的影响差异信息。
2)人口密度对早高峰进站量与晚高峰进站量的影响存在反向差异,体现了晚高峰时段进站客流的提升空间潜力高于早高峰时段;居住类型用地对早晚高峰客流量具有正面影响作用,特别对于天津市内六区而言,促进作用更为明显,说明城区人口通勤更依赖地铁这种交通方式;办公类型用地对早高峰进站量具有抑制作用,对北部区域的影响大于中部、南部,而对晚高峰进站量具有促进作用,在南部区域及滨海新区的影响最为显著,规律与天津市用地职住错位现状相符合;购物休闲用地对9号线某些站点、晚高峰时段客流的影响系数较大,这些站点需要更加关注此类用地开发,同时要着重考虑晚高峰时段的客流容纳量;介数中心性与绝大部分站点客流存在正相关关系。
3)以天津市为例,居住类型用地、办公类型用地、交通设施用地、土地利用熵、介数中心性与客流量间存在各异的非线性关系及阈值效应,例如住宅POI超过20个、办公POI超过4个对客流增加作用显著,但趋于饱和的阈值、转为相反作用分别为50、10和20个;10个及以上交通场所时,轨道客流量得到显著增加,交通枢纽作用凸显;较高的土地利用混合熵指数0.8以上对客流量的增加作用较大;介数中心性与几乎所有站点客流量存在正相关非线性关系。规划天津市轨道交通TOD时,办公类型用地在天津市不同区域、早晚高峰时段发挥着各异的影响程度;9号线的部分站点则需更加关注购物休闲类用地开发,注重考虑晚高峰时段客流饱和度;人口密度对早高峰时段进站客流的影响大于晚高峰时段,晚高峰时段进站客流更具潜力;在激发客流增长时要特别注意各影响因素的阈值范围,客流与影响因素间关系并非呈现完全的正、负相关趋势,而交通枢纽的规划应至少包含10个交通场站。城市规划和交通主管部门可以以上时空异质性和非线性分析结果为参考,应用因地制宜、分时错峰的规划政策或策略,针对不同区域、对应时段侧重开发不同类型用地,采取社会经济、交通政策扶持,引导城轨站域影响因素更新,平衡站点时空客流量,综合提升城轨客流效能。未来的研究可从以下两个方面拓展:一是同步考虑共享单车、出租车两种交通方式对于城轨客流的影响;二是探讨周末、节假日等特殊日期下客流量及其影响因素的作用机制,以形成更加完备全面的分析结果。
消息由中国城市轨道交通网CCRM整理编辑,文章来自都市快轨交通,涉及版权请联系删除,如有转载请标明出处)

