公共交通是城市公共基础设施之一,也是城市政治、经济及文化生活不可或缺的纽带和桥梁.对于常规公交而言,服务水平评价有利于及时发现现有公交系统中的薄弱环节,有利于提高城市公交客运服务水平,甚至为提高公共交通综合服务水平提供重要的参考价值.
目前,对公交服务水平的研究主要利用客观指标进行综合评价.武荣桢等运用层次分析法从线网布局和客运能力水平方面对咸阳市公共交通进行评价;徐兵等从平均站距和满载率等方面建立公交服务水平评价体系,采用灰色关联分析法对沈阳市公共交通进行分析;孙慧娟等从方便、安全及舒适等方面,运用粗糙集决策分析法对济南市快速公交系统(busrapid transit,BRT)进行评价.由于利用客观性能指标得出的服务水平评价,容易造成设计人员的主观臆想,致使可能与实际公交乘客的感知质量存在一定差距,因此,需要更加注重乘客感觉的主观因素进行分析,该方面研究在国内较少,主要是由于乘客满意度调查操作比较困难,且花费的人力、财力较大.Gabriela等研究了乘客对于公交服务的态度,表明公交感知服务质量对乘客使用公交出行有很大相关性;Hiroyuki等通过对洛杉矶公交停靠站乘客满意度调查,发现乘客满意度很大程度受车头时距、步行时间及车辆运行可靠性影响,而和站点物理设施关系不大;刘建荣等利用联合分析法对乘客偏好进行研究,表明可靠性对乘客偏好影响较大,而步行环境、站台环境对乘客偏好影响较小,其后又运用结构方程模型探索了乘客满意度、乘客期望、感知质量、公交形象和乘客忠诚等之间的相互因果关系,其结论表明每提升1单位的感知质量,乘客满意度提高0.81单位,但该模型假设各因素之间为线性相关.综上所述,目前大多数研究只对公交服务水平进行综合评价,有关服务水平改善措施对公共交通总体满意度提升的定量分析研究相对较少,事实上改善措施与公交服务水平并不一定呈线性相关.
2012年,广州市对2011~2012年间新开的100条公交线路的乘客满意度进行问卷调查.本研究基于调查所得大量离散、有序及有限的问卷数据,从乘客主观感受角度利用朴素贝叶斯方法建立适用该调查结果的乘客满意度模型,并利用该模型对提升新开100条公交线路服务水平的建议措施进行效果预测,表明所提措施具有实用性和有效性.同时得到了候车时间与乘客满意度的非线性关系.
1 朴素贝叶斯方法
1.1 贝叶斯基本理论
贝叶斯方法是基于贝叶斯定理而发展起来用于系统阐述和解决统计问题的方法,贝叶斯定理可以描述为[9]:设是一个类别未知的数据样本,为某个类别,假设数据样本x属于一个特定的类别,那么分类问题就是决定,即在获得数据样本x时,确定x的最佳分类.所谓最佳分类,常将它定义为在给定数据集D中不同类别先验概率的条件下最可能分类,贝叶斯理论提供了计算这种可能性的一种直接方法.该方法的核心为贝叶斯公式,其基本形式为
(1)
其中,
为先验概率,即
拥有的初始概率,独立于样本;
为联合概率,指当已知类别为
的条件下,看到样本x出现的概率;
可认为是一个常数,与
无关;
为后验概率,即给定数据样本x时
成立的概率.
1.2 朴素贝叶斯分类技术
设一个数据样本有n个属性,以n维向量
来表示n各属性的取值;假设这所有的数据样本归属于m个类别,以m维向量
表示所有类别,贝叶斯分类过程就是判断这些样本分别属于哪个类别.
朴素贝叶斯基于这样一个假设[9],即当给定分类变量时,属性变量之间条件独立,即在给定实例的目标值情况下,观察到联合
的概率正好是对每个单独属性的概率乘积,即要满足
(2)
因此,根据贝叶斯公式(1)及假设(2),可推断某一样本
属于各个类别
的概率,具体过程为

朴素贝叶斯分类是找到这一样本数据x具有最大概率的类别
,即
(3)
综上,利用朴素贝叶斯分类技术进行分类预测,关键是根据已有样本数据估计出
和
,通常根据它们在已有样本数据中的频率进行估算.当属性向量x与分类向量c的取值为离散型时,
和
可计算为
(4)
(5)
其中,N为样本数据中的总样本数;
为样本数据中属于
类别的样本数;
为样本数据中属于
类别且含有
的样本数.
2 贝叶斯乘客满意度模型
2.1 数据来源
2012年,广州市对新开的100条公交线路进行运营评估,这些公交线路主要是市中心区外围的短途公交线和连接中心区与郊区的接驳线.该评估主要是对这100条线路跟车满意度进行问卷调查,在高峰时段共发放问卷8640份,回收8184份,平均每条线路回收问卷80余份,有效率为94.7%,总体的问卷抽样率为4.2%,包含了不同年龄段及职业等的乘客,认为样本有效,具有较好的代表性.
问卷主体设计包括两大部分:出行特征,包括步行到达公交站点时间(5个选项)及公交站点候车时间(5个选项);满意度评价,包含线路走向、站点设置、发车频率、准点率、候车环境、车型、乘车环境及对总体满意度进行满意度评价,每个调查项提供满意、比较满意、一般和不满意4个选项供被调查者选择.
2.2 模型建立
相关朴素贝叶斯分类技术独立性假设研究表明:朴素贝叶斯分类模型的表现和独立性假设是否满足没有必然联系.根据乘客满意度调查问卷的构成可知,步行时间和候车时间等相当于贝叶斯模型中的状态属性x,乘客总体满意度相当于分类属性c,各属性取值如表1.根据离散属性相关性分析,状态属性中候车时间与发车频率相关度最大,采用交叉验证法测试(详见下文),是否删除发车频率对预测乘客总体满意度的影响不大,准确率误差平均约2%.因此,本研究案例同样认为独立性假设对本次研究影响不大.
表1乘客满意度模型属性构成
属性类别 |
属性 |
属性取值 |
状态属性x |
步行时间/min |
<10; 10~20; 20~30; 30~45; >45 |
候车时间/min |
<5; 5~10; 11~15; 16~20; >20 |
|
线路走向,站点设置,候车时间,发车频率,候车环境,车型,乘车环境 |
满意;比较满意;一般;不满意 |
|
分类属性c |
总体满意度 |
满意;比较满意;一般;不满意 |
在对“比较年新开的100条线路”问卷调查中,实际回收8 000多份问卷,在本模型中,为便于计算,对填写不完整的问卷暂时不予考虑,因此,本模型利用的数据样本容量为7 011份.
朴素贝叶斯分类模型通常将样本数据分为训练集与测试集.首先,基于训练集根据式(4)与式(5)得出相关参数;其次,基于测试集中的状态属性根据式(3)得出分类属性的预测属值;最后,对比分析分类属性预测值与调查得到的分类属性值获取模型的准确率.
本研究运用交叉验证法划分训练集与测试集,即训练模型3次,第1次选取每条线路前1/3的样本作为测试集,后2/3的样本作为训练集(事先对每份问卷进行编号);第2次选取每条线路中间1/3的样本作为测试集,前1/3与后1/3的样本作为训练集;第3次选取每条线路的后1/3样本作为测试集,每条线路的前2/3样本作为训练集.最后3次试验取平均,作为本模型的准确率.
依据式(4)和式(5),以第1次训练情形为例,在计算先验概率时,训练样本总数为4674份,分类属性乘客总体满意度为满意时得出的样本数为914份,故乘客总体满意度为“满意”的先验概率为0.196;在计算条件概率时,假设计算在乘客总体满意度为“满意”的基础上,步行时间为“一般”,此时样本数为530份,故其条件概率为0.580,其他以此类推.基于Matlab编程测算,模型试验结果如表2,模型准确率仅有63.5%,精度不高,经探究发现预测时分类属性满意与比较满意之间容易误判,即满意的容易预测为比较满意,比较满意容易预测为满意.事实上,当交通管理人员去评估乘客总体满意度时,认为比较满意已到达较高水平,此时不区分满意与比较满意已能满足评估需要.故对满意与比较满意不进行区分,均认为其满意,此时模型分类属性变为满意、一般和不满意3个类别,重新对模型进行标定与测算,获取改进模型的预测准确率达79.9%,预测精度拥有较大幅度的提高,能较准确的预测相关改善公交服务水平措施所能提升的乘客总体满意度.
表2 实验结果(准确率)
实验编号 |
准确率/% |
|
原始乘客满意度模型 |
改进乘客满意度模型 |
|
1 |
62.7 |
78.1 |
2 |
63.8 |
80.2 |
3 |
63.9 |
81.3 |
平均值 |
63.5 |
79.9 |
3 乘客满意度改善措施效果评价
对各属性与乘客总体满意度进行相关性分析,乘客候车时间与总体满意度的相关性最大,在问卷调查中,高峰期乘客候车时间在10 min之内的仅占60%多,同时也是各属性满意度评分最低的指标[8],因此,选取乘客候车时间作为影响乘客总体满意度的一大重要因素.
本研究模拟实施改善候车时间措施后(如加大发车频率等),乘客候车时间有所下降,此时在原有调查问卷的基础上,调查问卷候车时间发生如表3的改变,共模拟了6种情形,即在现状候车时间基础上,原先候车时间为6~10 min、11~15min、16~20 min及>20min中的乘客各有10%、20%、30%、50%和100%的乘客变为<5min、6~10 min、11~15min和16~20 min,以及全部乘客的候车时间均在5 min以内,见表3,其余属性不变,基于改进乘客满意度模型对乘客总体满意度进行预测.具体过程为:
第1步:获取改进乘客满意度模型参数值.通过总计的7 011份问卷来进行训练.
第2步:获取实施改善措施后再次调查可能获取的样本.首先对现有样本按候车时间的属性值进行排序,利用交叉验证法获取改善措施实施后再次调查可能得到的问卷结果,如改善情形1,将会出现10种可能的问卷结果(事实上可能存在无数多种情况,由于均是随机调查和随机排序,本研究认为采用交叉验证法能获取具有典型代表性的可能样本),具体过程类似于训练集与测试集的划分,其他情形依此类推.
第3步:获取乘客总体满意度预测值.根据不同情形获取的样本进行预测,当可能样本出现多个时(如改善情形1~4),取预测值的平均值为该情形的总体满意度预测值.
候车时间不同改善水平同乘客总体满意度的关系如图1,候车时间小于5 min的比例越大,乘客满意度越大,但并不成线性关系,具体为:当乘客候车时间小于5 min的比例小于33.8%时,候车时间小于5min的比例每增加1个百分点,乘客总体满意度增加0.07个百分点;当乘客候车时间小于5 min的比例大于33.8%时,候车时间小于5min的比例每增加1个百分点,乘客总体满意度增加0.04个百分点,以图1中虚线为界所示.
表3改善措施实施后乘客可能候车时间构
候车时间/min |
乘客总体满意度/% |
||||||
现状 |
改善情形1 |
改善情形2 |
改善情形3 |
改善情形4 |
改善 情形5 |
改善情形6 |
|
<5 |
20.1 |
24.7 |
29.2 |
33.8 |
42.9 |
65.7 |
100.0 |
6~10 |
45.6 |
43.5 |
41.3 |
39.2 |
34.9 |
24.1 |
0 |
11~15 |
24.1 |
22.5 |
20.8 |
19.2 |
15.9 |
7.6 |
0 |
16~20 |
7.6 |
7.1 |
6.6 |
6.1 |
5.1 |
2.6 |
0 |
>20 |
2.6 |
2.3 |
2.1 |
1.8 |
1.3 |
0 |
0 |
结 语
本研究基于朴素贝叶斯方法建立公交乘客满意度模型,经验证该模型的预测精度较高,且运用候车时间的改善对提升公交服务水平做了预测,呈现候车时间与总体满意度之间的关系.本研究仅呈现一种主要因素与乘客总体满意度之间的关系,且没有考虑相关改善措施所需的资金投入,下一阶段拟从资金投入,多措施组合改善着手,提出改善公交满意度水平更有效、更经济的建议方案.同时,该模型对总体满意度为满意与比较满意的辨别能力较差,也将从模型构建深入研究.此外,随着“互联网+”的盛行,乘客出行行为等较传统将发生大的改变,公交出行总体满意度影响因素将会发生一定的变化,后续也将从该角度进一步研究.


