余林清 刘琦 徐万明 马弘斌 周建民
成都市规划信息技术中心 成都 610042 )
摘要:智慧城市是加快建设全面体现新发展理念城市、打造美丽宜居公园城市、提升城市综合竞争力的重要支撑。时空大数据作为加快推进智慧城市建设,全面提升超大城市治理体系和治理能力现代化水平的重要基础,对时空数据多源汇聚、智能处理、深度融合、共享交换等方面提出了更高要求。本文结合成都市时空信息云平台项目建设,探讨构建全市时空大数据管理系统框架、关键技术及系统成果。实践证明,该系统能够为各级政府部门、社会企业和公众提供坚实的“时空底座”服务。
关键词:时空大数据;资源体系;数据管理
时空大数据是时空信息、自然人文及社会信息的融合体,是重要的大数据之一[1-2]。时空大数据的价值在于信息的分析、知识的生成、事件的预测与决策[3]。通过时空大数据的治理融合、挖局分析可揭示区域发展规律,它是智慧城市开展城市治理应用不可或缺的重要基础信息支撑[4]。
目前,时空大数据应用逐渐朝智能化的高级形态发展,通过新一代信息技术的应用,将更加精准、实时、全面的反应城市发展变化规律,为智慧城市的规划、建设、管理和运营全过程、全方位决策提供强有力支撑[5]。本文将以建设全面覆盖、多端融合、智慧联动的“时空底座”为目标,结合成都市时空信息云平台建设经验,提出了支撑各领域智慧应用的时空大数据管理系统建设模式。
1总体架构
时空大数据管理系统作为时空信息云平台的核心支撑对象,通过对基础地理、政务、运营和感知等多源异构数据智能汇聚、多态存储、融合治理、深度挖掘等加工后,可向时空信息云平台前端(如门户)提供辅助决策分析的信息知识服务。系统架构包括基础设施层、数据层、系统层、应用层四个层级,及制度保障、安全保障体系。
1.1基础设施层
由核心机房和电子政务云平台两部分组成,分别对应敏感涉密空间数据和政务共享空间数据的存储和管理。基于云计算架构,形成可按需服务的高性能计算环境、容器环境,满足时空大数据的重型运算需求。
1.2数据资源层
在地理空间框架的基础上,整合、集成和规范现有基础地理信息数据、国土规划数据、地理国情监测数据等各类数据库,汇聚公共专题数据、行业专题数据、智能感知实时数据等各类外部数据,实现时空信息资源的有效整合和统一管理。
在数据库建设方面,基于统一的时空基准,形成核心数据库、指标数据库、模型数据库和知识数据库,用于支撑实现多元表征推导、自动分类识别、知识推理和知识图谱等能力。此外,结合信息化新技术,可实现智慧应用分析模型全流程管理,拓展完善知识分类、多维索引、知识图谱、关联分析等智能分析功能。
1.3管理系统层
含数据管理子系统、集成展示子系统、大数据挖掘分析子系统等,实现数据生产、汇聚、治理、入库、展示、管理、挖掘、共享、运维等全生命周期管理,以支撑时空信息云平台前端服务资源精准有效供给。
1.4用户应用层
通过前端实现与数字城管、智慧水务、智慧应急等应用对接,为各类智慧应用的不同空间信息服务需求的用户提供服务,支撑智慧应用的建设和运行,避免重复建设,实现空间信息资源共建共享。
2关键技术
2.1多态混合的海量异构时空大数据存储技术
空间相关类型数据如矢量数据、栅格数据,传统的存储形式一般基于关系型数据库(RDBMS)以及共享文件存储系统。(1)针对矢量数据按数据集、要素层组织,要素层采用简单点、线、面表达。(2)对于影像成果等栅格数据集采用镶嵌数据集形成栅格目录。
(3)大数据文件采用分布式文件系统HDFS进行存储。(4)针对空间数据类型特有的元数据信息,通过分布式搜索引擎数据库构建元数据索引,用于支撑全端对数据的快速检索。
2.2多源异构数据智能汇聚技术
通过多源异构数据汇聚引擎作为数据汇聚、流程化处理和数据入库的底层支撑。采用基于Nifi的实时ETL技术架构,接入Hadoop、Hbase、MongoDB等非关系型数据库。数据加载后,能够自定义处理数据的规则,转换处理规则包含数据标准化、数据归一化、字典转换、数据完整性校验、正则处理、字符操作、空间函数处理等等,所有转换规则的配置可以基于WEB UI进行编排,并可以保存为通用的ETL处理模板,方便下次对多源异构数据资源的快速接入。
2.3基于Mapnik的空间数据快速显示
借助Mapnik开源工具包并对其优化和封装的基础上,使其支持分布式部署,同时结合Postgresql的集群能力,对地理空间大数据对外提供高效强大的空间数据动态渲染的数据可视化能力,在时空大数据集成展示中实现空间数据的快速显示。
2.4基于高性能分布式计算框架的时空大数据分析技术
传统的空间分析通常基于单机单进程架构,即使有部分可多线程运行的算法也很难超越单机的运算能力瓶颈,随着WebGIS相关软件架构的发展而产生的分布式GIS集群可以满足高并发地图请求的需求,但依然很难应对针对海量空间数据进行高效的处理分析的要求。在主流的大数据分析框架如Spark之上,扩展实现针对空间数据的分析算法模型可以很好地解决这个问题。Spark主要基于内存以弹性分布式数据集(RDD)处理数据,采用计算与存储分离架构,提供高效且可扩展的并行运算能力,并且可以与机器学习相关算法很好结合。
2.5云端管理的多租户资源安全隔离技术
多租户是一种应用的架构形式,可以通过搭建在共享的硬件和软件架构上的一个应用来同时地服务不同租户中的用户。这么做,可以通过更好地利用基础架构资源,以及简化维护和管理来显著降低运行成本。在项目建设中,云端管理采用专门的多租户机制,将为每个组织提供了相互独立的工作空间,实现安全的多租户和可控的基础架构的共享。
3系统成果
3.1时空数据运行管理
实现海量、多源、多时相、多尺度的地理空间数据的接入,具备多源异构数据的实时处理和分类管理能力,提供从标准建模、质检入库、动态更新、智能管理、集成展示、分发共享全生命周期的微服务化管理模式,支撑管理应用。基础功能模块包括:数据库管理、存储连接管理、质检工具管理、入库更新管理、影像处理、空间分析、查询统计、分发管理、制图管理、成果共享、安全管理等内容,为打造城市数据湖,提升数据质量,激发数据要素活力提供了强有力的支撑。
3.2时空数据挖掘治理
面向自然资源、城管、住建、交通、水务、环保等领域的管理决策应用需求,构建数据治理应用支撑体系,实现来源多样、格式不一数据的融合治理,具备数据检查与清洗、数据内容标准化、数据处理策略优化、数据整合入库等功能。实现了海量时空数据的分布式计算处理和洞察挖掘能力。通过对大规模时空数据资源池化管理,利用分布式计算和处理工具、时空挖掘工具及深度学习工具等,实现了规律探索和趋势预测的能力。
3.3时空数据全息展示
依托时空大数据中心及快显技术,构建集数据资源、服务资源、地图资源于一体的综合数据展示平台,实现数据的高效渲染、显示和专业表达,强化了数据集成共用。
参考文献
[1] 李德仁.论时空大数据的智能处理与服务[J].地球信息科学学报,2019,21(12):1825-1831.
[2] 施小溪.浅析地理时空大数据对测绘档案管理的要求[J].测绘技术装备,2017,19(03):73-74.
[3] 李德仁.马军,邵振峰.论时空大数据及其应用[J].卫星应用,2015(9):7-11.
[4] 曹春华.张泽烈,程宇翔,等.时空大数据服务平台建设模式及应用研究———以重庆市为例[J].测绘通报,2020(10):135-138.
[5] 陆佳.时空大数据分析支持业务决策[J].北京规划建设,2017(06):21-25.