韩艳红 伯金山
重庆交通大学 交通运输学院 重庆 400074
摘要:合理的上车站点判断方法和换乘识别对公交客流规律挖掘十分重要,利用系统聚类分析法识别乘客上车站点的算法,可识别站点数量少,导致乘客上车站点识别准确率低。针对这一问题,提出基于公交IC卡的乘客上车站点识别。本文首先对公交IC卡数据进行预处理,分组IC卡数据,采用IC卡忠诚用户确定匹配组,对上车站点进行识别分析。
关键词:公交IC卡;忠诚用户;匹配组;上车站点识别
0 引言
公交IC卡数据包含了乘客IC卡号、刷卡时间、乘客类型、对应线路编号、车辆编号等信息。通过GPS车载系统,可以实时地获取到公交车辆的相关状态信息。利用处理后的数据,通过设计合理的上车站点识别算法,寻找乘客刷卡消费时间与公交车辆到离站点时间之间的规律,对促进公交运营有极大的作用。
曾勋[2]、张欣环[3]利用IC刷卡数据、GPS数据,得到车辆到站时间,再将刷卡时间与车辆到站时间进行比较,得到上车站点。但当两公交线路有多个相交站点时,由于缺少换乘信息,可确认的匹配站点较少,会影响站点识别的准确率。本文结合公交IC数据、线路站点信息,得到换乘乘客所在数据组的上车站点,推测其他数据组的上车站点,确定部分数据组的上车站点,最后通过比例关系得到IC 刷卡数据组的上车站点。
1 公交IC卡数据预处理
利用城市居民公交IC卡原始数据,并选取其中IC卡号、消费时间、线路号、车辆号作为分析的基础数据。
在自动售票系统工作过程中,可能会出现车载刷卡收费机故障、数据记录异常等状况,导致刷卡记录中部分数据不全,例如车辆卡号缺失、消费时间缺失、卡类型不一致等情况,对该类数据进行清理是保证数据挖掘质量的有效手段,予以直接剔除。
2 公交乘客上车站点识别分析
该方法以目标线路的一个单程为研究单位,方法主要流程为:划分单程→判断行车方向→分组刷卡数据→确定匹配组→匹配待定组。
2.1划分单程
令代表公交车一个单程的平均行驶时间,代表公交车的休整时间,表示当天第条刷卡记录的刷卡时间,表示第条与第条刷卡记录间的刷卡时差。将当天第一条刷卡记录作为一个单程的第一个刷卡记录。若第个刷卡数据满足公式2.1:

(2.1)
则第个刷卡数据为该单程的最后一个刷卡数据,第个刷卡数据为下一单程的第一个刷卡数据,重复上述过程,切分所有单程。
2.2 判断行车方向
假设换乘乘客在目标线路的刷卡时间在换乘乘客之前,且两者刷卡时差大于5分钟。表示乘客刷卡时间,表示换乘站点,表示该站点在上行方向的站点序号,表示换乘乘客刷卡时间,表示换乘站点,表示该站点在上行方向上的站点序号。如果,此单程为上行方向;反之这个单程为下行方向。
2.3 分组 IC 刷卡数据
根据目标线路的总长度和平均单程行驶时间,计算车辆的平均行驶速度。再从线路站点信息中找出目标线路最短的站间距,根据公式计算时间阈值。

(2.2)
设。表示第个记录和第个记录间的时差,表示分组序号,计算步骤如下:
1、取出单程中所有刷卡记录,并按时序关系排序;
2、令

;
3、若

,用x标记第i个刷卡记录;
4、若

用标记第个刷卡记录;
5、令

,重复3、4步,直到所有刷卡记录被标记。
2.4 确定匹配组
利用IC卡忠诚用户信息确定匹配组,仅限于目标线路上早间时段的刷卡数据,对其他时段不做处理。在早间时段,根据忠诚用户信息确定匹配组的步骤分为以下四步。
1、筛选刷卡记录
筛选出刷卡时间在早上6:00-9:00之间,并且这条刷卡记录是其对应乘客当天的第一条刷卡记录,并且乘客一个月的工作日的总刷卡量不小于30条。将满足这4个要求的刷卡记录称记录。
2、抽取多日刷卡数据
根据记录的IC卡号字段,从数据库中抽取其对应乘客一个月中所有工作日的刷卡数据。
3、筛选刷卡数据
令表示记录的刷卡时间。筛选找出刷卡数据中乘客每个工作日里的当日第一条刷卡记录,且刷卡时间与绝对值之差小于30 分钟。
4、确定上车站点
针对第3步所得的刷卡记录,计算刷卡记录的个数,根据刷卡记录的公交线路编号字段,统计出现次数最高的两个线路,并计算出这两个线路出现的次数。
若目标线路并且,则通过查找线路站点信息,获得两个线路的相交站点,并记录站点在目标线路上的站点序号。通过上述步骤得到IC卡忠诚用户所在待定组的上车站点。将该待定组标记为匹配组,对应站点标记为匹配站,并记录下这个匹配组对。
2.5 匹配待定组
待定组的匹配过程沿用张颂[4]提出的利用最大相似性原理,匹配组和匹配站将待定组和待定站分为多个子段。
3 实验结果
以重庆市625路公交线路在2020年1月1日(周三,工作日)的刷卡数据为例。625路共公线路上行方向有15个公交站点,下行方向有14个站点。22 辆公交车运营在625路公共线路上。在2020年1月1日当日,有8616个乘客乘坐625路公交车,在该线路上产生10854条刷卡记录。
识别结果如图3.1所示(图中数据为截取的部分结果)。

图3.1 识别结果
4 结论
本文提出的方法通过在地铁换乘确定匹配组和匹配站后,对待匹配子段进行切割,在各个子段上,根据时序关系筛选乘客公交换乘的候选站点集,剔除集合中不满足时序关系的换乘站点,提高基于公交换乘的匹配组的识别数量。其次,针对早间时段换乘信息少的问题,利用IC卡忠诚用户在早间时段的乘车规律,识别匹配组,提高站点识别准确率。
参考文献
[1]陈君,杨东援.基于智能调度数据的公交IC卡乘客上车站点判断方法[J].交通运输系统工程与信息,2013,13(1):76-80.
[2]曾勋.基于IC卡和GPS数据的公交服务能力评估[D].长安大学,2019.
[3]张欣环,吴一昊,吴金洪,许明明,毛程远. 基于IC卡和GPS信息的城市常规公交客流分析[J]. 浙江师范大学学报(自然科学版),2019,42(02):208-214.
[4]张颂,陈学武,陈峥嵘.基于公交IC卡数据的公交站点OD矩阵推导方法[J].武汉理工大学学报交通科学与工程版,2014(2):
[5]Barry J J,Freimer R,Slavin H L.Use of Entry-Only Automatic Fare Collection Data to Estimate Linked Transit Trips in New York City[J].
[6]Tsuyoshi TAKAHASHI,Makoto NISHIDA,Yoichi KAGEYAMA. Development of a Data Transmission Method using a Hybrid Signal Generated by Analog and Digital Signals[J].
[7]Yi Sui,Fengjing Shao,Xiang Yu,Rencheng Sun,Shujing Li. Public transport network model based on layer operations[J]. Physica A: Statistical Mechanics and its Applications,2019,523.