长三角区域一体化战略下常州市地铁车站出入口聚类分析

发表时间:2020/10/21   来源:《城镇建设》2020年第21期   作者:艾倩楠 陆丹丹 张宇 张怡宁 林梦迪
[导读] 在“长三角区域一体化战略”下,为明确常州市轨道交通车站各出入口的功能与定位,方便分析出入口周边土地利用情况对客流的吸引
        艾倩楠  陆丹丹  张宇  张怡宁  林梦迪
        江苏城乡建设职业学院 公用事业学院  江苏常州  213147


        摘要:在“长三角区域一体化战略”下,为明确常州市轨道交通车站各出入口的功能与定位,方便分析出入口周边土地利用情况对客流的吸引,并据此建立基于土地利用的客流预测模型,因此需要对各车站各出入口进行分类。通过采用PCA(Principal Component Analysis)主成份分析法对数据进行降维处理,利用k-means聚类方法对常州市地铁站各出入口进行分类,并的到最终的聚类结果。
关键词:轨道交通;出入口分类;k-means聚类;PCA降维;长三角区域一体化
中图分类号:                                      文献识别码:A
0、 引言
        2018年11月,习近平总书记在中国国际进口博览会开幕式演讲提到“将支持长江三角洲区域一体化发展并上升为国家战略”。2019年2月,政府工作报告明确提出将长三角区域一体化战略上升为国家战略。党的十八大以来,以习近平总书记为首的党中央高度重视“区域一体化”发展战略。在顶层设计上,总书记指出 “要着力加强顶层设计”,“明确功能定位、产业分工、设施配套、综合交通体系等重大问题”。
        近年来,轨道交通行业飞速发展,轨道站点逐步成为多种出行方式换乘及社会活动集聚的场所,是客流的吸引及城市发展的辐射中心,也是未来城市规划、设计与建设的研究重点。轨道交通站点周边的土地利用情况、土地开发强度不同,所以轨道交通车站在线网中的功能与定位不同。同时,每个轨道交通车站不同的出入口周边的土地利用情况不同,对客流的吸引量也会有显著差别。为了建立基于土地利用的客流预测模型,需要对各车站的出入口进行分类。本文对常州市1号线29个车站、100个出入口、14个变量的矩阵进行降维处理,得到14个综合变量的贡献度,通过PCA分析法提取出主成分,将数据降维2维,然后依据k-means聚类方法,对100个出入口进行分类,得到最终的聚类结果。
1、数据降维处理
1.1数据降维基本原理
        数据降维是指通过线性或者非线性映射将高维数据转变成低维数据,数据降维的主要目的是在保持原始矩阵的分类和决策能力的前提下,去掉数据中的冗余信息,通过数据降维可以减轻数据中的冗余信息,通过数据降维可以减轻维数灾难和高维空间中不相关属性,促进高维数据的分类和压缩。本文采用PCA(Principal Component Analysis)主成份分析法进行数据降维的操作。
        PCA是一种典型的线性降维方法,通过对原始变量的相关矩阵进行研究,用少数几个综合变量(即提取出的主成份表示原始的多个变量),进而达到降维的目的。PCA并不是直接对原始数据进行删减,而是将原始数据映射到一个新的特征空间中继续表示,即提取出来的主成份可以反映原始变量的绝大部分信息,通常用原始变量的线性组合来表示。[]
假设有m个样本,每个样本有n个变量,构成一个m×n的数据矩阵:



        由表1和图1可知,前两个综合变量的贡献度分别为88.144%和9.902%,累积贡献度达到98.046%,大于95%,可认为综合变量1和2能够体现原始数据矩阵的特征,即通过PCA分析法提取出综合变量1和综合变量2作为主成份,将原来的14维数据降低至2维。
2、聚类分析
2.1聚类原理
        在聚类分析中,K-均值聚类算法(k-means algorithm)是无监督分类中的一种基本方法,K-均值算法,其基本思想是通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。K均值聚类算法的一般步骤如下:
        1)初始化。输入基因表达矩阵作为对象集X,输入指定聚类类数K,并在X中随机选取K个对象作为初始聚类中心。设定迭代中止条件,比如最大循环次数或者聚类中心收敛误差容限。
         2)进行迭代。采用欧式距离作为变量之间的聚类函数,根据相似度准则将数据样本分配到最接近的聚类中心,从而形成一类。初始化隶属度矩阵。
         3)更新聚类中心。然后以每一类的平均向量作为新的聚类中心,重新分配数据对象。
         4)反复执行第二步和第三步直至满足中止条件。
         聚类算法的评价标准如下式所示:
         
式中:
        k表示聚类总数,即将样本聚为k类;
        μi表示第i类的聚类中心;
        Si表示第i类中包含的样本集合;
        xj表示样本集合Si中第j个样本。
        该公式表示将每个类中的数据与每个聚类中心做差的平方和,J越小,意味着聚类的效果越好。
2.2聚类过程
        (1)样本数据分布
        以降维后的数据作为聚类基础,其二维平面分布如图2所示。

        从上图可以看出,为了保证聚类结果相对均衡合理,最佳聚类数量应在2~4之间,因此选取3为最佳聚类数,即使用K-均值聚类时,初始化3个聚类中心。
        (3)聚类结果
        使用Matlab进行聚类分析,将聚类结果显示在散点分布图中,如图4所示。


        从离差平方和的数值大小可以看出,第一类的聚类效果最好、第二类次之,第三类最差。即第一类和第二类的样本之间距离差异小、聚类特征较为明显,第三类样本之间的离散性较大、聚类特征不明显。
        (4)聚类检验
        利用高斯混合模型拟合样本数据进行聚类做出样本等高线图和三维曲面图,对聚类结果进行检验,如下图所示。


        根据高斯混合聚类的模拟结果,第一类和第二类的聚类特征较为显著,而第三类并不明显,原因在于第三类的样本点过于分散且样本数量较少。总体上聚类结果合理可行。
2.3结果分析
3、结束语
        依据居民出行调查数据,提出了采用PCA降维处理的方法,将100个样本、14个变量的矩阵降为包含两个主成分的2维数据,根据降维处理的结果,对100个出入口采用K-means聚类方法进行聚类研究,得到各出入口的聚类结果,并绘制等高新聚类图以及高斯混合聚类三维曲面图,使得结果更加形象的显示。

参考文献:
[1] 余丽洁,李岩,陈宽民. 基于谱聚类的城市轨道站点分类方法[J]. 交通信息与安全,2014,32(1):122-129
[2] 杜靖毅,张梦启,贺翔. 基于模糊聚类的城市轨道站点衔接策略研究[J]. 长沙大学学报,2014,28(2):62-65
[3] 贺鑫,李科. 基于聚类分析法的城市轨道交通站点分类[J]. 信息通信,2015,151(7):36-37
作者简介:艾倩楠,女,助教,硕士,从事轨道交通安全方面的研究.
基金项目:江苏省高校哲学社会科学研究课题2019SJA1199;常州市社会科学研究重点项目CZSKL-2019A025.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: