王 意
山东省国土测绘院 济南 250013
摘 要:随着大数据时代的到来,各类数据管理、应用和服务系统已经实现对亿级地理信息数据的高效处理,对基础设施建设提出了更高的要求。分析了传统信息机房的基础设施性能瓶颈,以山东省为例,探究通过构建基础设施云平台,采用空间大数据基础框架,实现对大数据中心的基础支撑。本研究可以提升基础设施应用水平,更好的服务于地理信息资源管理领域,具有较为广阔的应用前景。
关键词:基础设施;云平台;空间大数据基础框架
1 引言
随着大数据时代的到来,传统的空间信息体系构架已经逐渐暴露其弊端,越来越不能满足当前海量数据处理规模的需求。基础设施作为大数据的基本要素,为数据管理、应用和服务系统提供底层支撑,目标是建立、使用和维护一个空间数据框架。在传统的地理信息数据基础设施(或者称为地理信息数据服务)中,数据以“项目为单位”进行组织生产,按照数据源进行组织,以集中式离线和准在线的方式存储在单一的存储系统中,可以看作是孤立的实体。在使用时,应用通过对元数据进行查询,在已有的数据中找到合适的数据集并筛选出需要的数据实体,再按照一定格式将打包的空间数据下载到本地,供下一步使用。这种按专项业务维度构建的体系结构,虽然简单实用,易于实现,但存在着烟囱式管理、各自独立、服务类型单一等问题。随着行业信息化进程加速以及各类应用需求不断深化,按需定制的多样化产品需求越来越强烈。因此,地理信息行业需引入大数据思维进行空间数据框架的重构,应用上实现服务模式从“端菜”到“点菜”的转变。
山东省省级地理信息资源大数据中心(以下简称大数据中心)建设项目是山东省“十三五”期间在基础测绘领域的重点工程,通过全面梳理、整合省级地理信息资源,形成了极具山东特色的时空大数据“一站式”服务模式,其中基础设施建设是大数据中心建设的重要一环。本文以山东省大数据中心为例,阐述了一种以空间大数据基础框架为核心抓手的大数据云平台基础设施。结合大数据、云计算等新型IT技术,对大数据中心建设所需硬件、网络及软件系统进行改造升级,构建空间数据框架,提供对空间数据共享、集成、互操作的功能和接口,保障大数据中心各个系统安全稳定高校运行、各类数据安全可靠存储。
2 基础设施云环境建设
基础设施云环境,是将硬件资源进行整合,抽象成逻辑资源,形成跨虚拟化技术的统一资源池,实现计算资源、存储资源及网络资源动态分配。网络基础设施是实现大数据中心业务最底层的基础设施,职称数据快速访问、高效的数据查询、存储和高性能计算分析。内部物理设备层采用万兆网络互联,网络传输达到 40Gb/s;服务器和交换机之间 10Gb/s 传输;存储根据业务 I/O 读写的效率需求,保持存储接口网络整体性能大于2GB/S。计算资源是各类业务进行分析应用的关键资源。为匹配大数据中心的并发服务、并行计算与分析的需求,服务器采用最新型的英特尔至强第 14 代 CPU,提供不少于四个 10Gbps 高速以太网端口,实现高数据吞吐量和低延迟工作负载。存储资源是数据存放的物理位置。大数据中心整合现有底层存储资源,建设统一存储。
云管理系统是实现大数据中心基础设施资源池化和动态分配的核心基础,实现物理资源的按需交付以及快速交付。功能上实现将基础设施(如:服务器、共享存储)进行统一管控、形成资源池,由云数据中心管理平台的调度系统统一协调:
?计算服务:包括虚拟机、物理机、虚拟数据中心等资源的交付;
?网络服务:包括虚拟网络、VPC、虚拟防火墙及负载均衡的交付;
?存储服务:包括云硬盘/卷、对象存储、云网盘等服务的交付;
?应用服务:包括数据库服务、中间件服务、web应用服务等。
3 空间大数据基础框架
空间大数据基础框架在云平台基础上,提供数据分布式存储和高性能处理分析的基础能力。构建与具体业务松耦合的中间性的大数据统计、分析和挖掘技术框架,实现对传统业务的分布式、并行化改造升级,以提升应用服务的效率和系统资源的利用率。
3.1 数据资源
大数据中心数据资源以汇集库、资源库、服务库、目录与元数据库为核心,对数据资源建立统一分类编码和统一资源分类目录,通过整合各类地理信息资源,按照统一的时空大数据模型构建。
汇集库主要按照数据来源进行内容组织,包含测绘基准、地形要素、地理国(省)情信息、原始影像数据、行业专题数据、市县基础地理信息和资料档案等数据,是大数据中心数据资源的“原材料”。资源数据库是对汇集数据库的数据按照大数据标准规范进行对比、整合与归一化形成的,根据数据类型和应用服务的需要进行数据库内容组织,是由汇集库数据整合形成的“素材”和“初级产品”。服务库是对资源库数据(部分场景下需要汇集库数据)进行抽取和产品加工,形成以地图成果为核心的数据产品。目录与元数据库是在与测绘成果网络化分发服务系统、地理信息资源目录服务系统充分衔接的基础上,构建的面向管理与应用的统一资源目录体系,采用元数据对大数据资源进行描述,形成规范的目录内容。
3.2 存储框架建设
空间大数据存储采用混合存储和分布式存储策略,综合运用空间数据库、关系数据库、NoSQL 数据库、分布式文件系统等异构存储环境,对外提供统一的、开放的数据存取访问接口,以支撑上层应用开发分布式、并行计算应用。汇集库通过数据引用、数据注册,资源库、服务库遵循统一的数据库建设标准,包含数据库平台、存储模式、数据内容标准、元数据标准等进行分类建库,实现矢量、影像、地形、表格、瓦片、文件资料等结构化、半结构化和非结构化数据的存储管理,为每一类数据适配最优存储形式,满足不同应用情景的高效数据访问需求,形成一体化的数据“基石”。
混合存储和分布式存储策略二者从不同维度将数据内容划分到不同的存储设备上,降低单台设备的负载,较少出现数据访问瓶颈,同时能提升数据的安全性和整体的访问性能。每个数据对象从业务场景出发制定合适的数据读取策略,针对大数据量的对象还需额外制定数据分片策略,高并发访问对象需要额外制定冗余存储策略,以保证数据的正常应用。
混合存储策略中,综合应用空间数据库、NoSQL数据库、内存数据库和分布式文件系统,以应用为牵引,实现多源异构空间数据最优存储形式的适配。矢量数据采用具备几何特征的关系表进行存储;栅格数据采用镶嵌数据集进行管理;文件实体存储于文件系统,空间范围及属性信息采用关系表进行存储,并与文件实体进行关联。伴随着空间数据存在的表格数据采用关系表进行存储,瓦片类缓存数据采用NoSQL数据库进行存储管理。
不同存储形态的空间数据往往对应不同的业务场景,面对数据浏览场景,优先直连空间数据库,选择具有高度数据质量的库体成果数据。面对分发服务场景,优先选择文件形态数据。面对高并发的服务应用以及海量数据的快速浏览,矢量与栅格数据处理为瓦片形态能够获得更优的应用效果。部分分析挖掘场景,矢量、栅格数据需要进行特殊处理,以特定的存储形式满足算法运行的要求。
在单一业务中,采用副本集、数据分片等分布式存储技术应对高并发的数据存取访问。对于集中写入,持续读取的场景,采用副本集技术,一主一从或一主多从,从库数量依据并发访问量决定,动态调整从库数量。副本集技术中,主库负责写入,从库负责读取,主从库之间通过复制机制保持数据同步。在主从数据库之上增加中间件,提供连接池、负载均衡等功能,统一接收数据读写请求,依据请求类型,写操作提交主库,读操作依据主库和各从库的负载情况进行灵活调度。当超过限制的连接数后,中间件会拒绝数据库连接请求,保持数据库运行的稳定性。
对于亿级大表或高并发的频繁读写场景,采用数据分片技术。逻辑单表被拆分为多个物理表,即多个分片,每个物理表存储于不同的数据库,每个数据库具备独立的支撑环境。数据分片需要确定分片字段,一条记录在进行数据库插入时,基于该记录分片字段的内容计算该记录属于哪个分片,并将记录插入到特定数据库的分片中。当在地图窗口中对矢量数据进行浏览或查询时,多数情况下其本质为对集中连片要素集合的访问,这些集中连片要素地理位置很接近,通常情况下归属于一个或几个地理单元,根据地理单元过滤和缩小数据库中检索范围,则能够起到访问较少数据而较快找到满足条件数据的效果。在读取时,每个分片进行相同的查询,各分片查询结果合并后提交给用户,可依据实际的业务运行情况,灵活调整支撑数据分片的数据库服务器。面向空间大数据的存储管理,不同的分布式存储技术可以组合应用,在主库和从库的基础上,各库可进一步的进行数据分片,以提升整体的数据库访问性能。
3.3 计算框架建设
为大数据应用多元化需要,基于分布式环境,构建高性能并行计算和分布式计算混合的计算框架,主要包含 GHPC 和 GSpark 二部分。GHPC 是通过对传统应用改造升级的任务级并行计算框架,利用更多的计算资源提升传统业务处理效率;而基于分布式内存计算框架 GSpark 主要是面向创新性空间大数据分析挖掘。其重点与难点是将分布式计算框架与GIS 平台基础内核进行深度融合:一是数据的划分和索引。采用非空间数据的数据划分和数据索引方法,虽能实现空间分析算子的并行化改造,但易使计算过程中的任务倾斜,导致计算效率低下。二是各种计算方式间如何进行统一的调度管理。本研究通过计算技术空间化方法和统一调度管理办法尝试解决以上技术瓶颈。
4 结束语
基础设施是大数据中心运行的基础支撑,对于大数据中心管理与服务效率起着至关重要的基础作用。本文提出的空间大数据基础框架搭建在云基础设施之上,通过IT大数据技术与GIS内核技术深度融合,搭建,实现分布式架构下的时空大数据混合存储与并行计算,打破传统技术框架面对大数据的性能瓶颈,通过业务流程管理系统调用大数据算法模型库,访问计算资源和存储资源,结合任务调度系统和资源调度系统,实现对数据管理、数据服务和数据应用的支撑。
参考文献
1肖建华,王厚之,彭清山,等.地理时空大数据管理与应用云平台建设[J].测绘通报, 2016(4): 38-42
XIAO Jianhua, WANG Houzhi, PENG Qingshan, et al. Research on the construction of cloud platform for the spatio-temporal big data management and application [J]. Bulletin of Surveying and Mapping, 2016(4) :38-42
2OUSSOUSA A , BENJELLOUNA F Z , LAHCEN A A , et al. Big data technologies: a survey[J]. Journal of King Saud University–Computer and Information Sciences, 2018, 30(4): 431–448
3吴朝晖,陈华钧,杨建华. 空间大数据信息基础设施[M].浙江:浙江大学出版社,2013:69
4吴景勤. 第一代国家空间数据基础设[J].世界核地质科学,2004,21(2):99-106.
WU Jingqin. First generation national spatial data base [J]. World Nuclear Geological 2004, 21(2):99-106
5简灿良. 福建省空间数据基础设施的建设探讨[J].测绘通报, 2000(11): 37-48
JIAN Canliang. Discussion on the Building Spatial Data Infrastructure of Fujian Province [J].Bulletin of Surveying and Mapping, 2000(11): 37-48
6陈庆涛,邓敏.国内外空间信息基础设施建设进展及其应用中的启示[J].测绘通报 2014,(7):1-5
CHEN Qingtao,DENG Min.Development of Domestic and International NSII Construction and Enlightenment from Its Application[J].Bulletin of Surveying and Mapping, 2014(7): 1-5
7李德仁.论“互联网+”天基信息服务[J].遥感学报,2016(5): 708-715
Li Deren. The “Internet Plus” space-based information services[J]. Journal of Remote Sensing, 2016(5): 708-715