山东黄河时空大数据中心研究与构建

发表时间:2020/9/9   来源:《科学与技术》2020年28卷第9期   作者:马德辉 段同苑
[导读] 本文根据《水利信息化资源整合共享顶层设计》和《智慧黄河实施方案》要求
        摘要:本文根据《水利信息化资源整合共享顶层设计》和《智慧黄河实施方案》要求,在水利一张图的基础上,建设以山东黄河专用图层为空间维度,以不同时期工程基础数据、遥测信息、监测信息为时间维度,结合卫星、无人机等采集的遥感信息,构建协调一致的山东黄河时空大数据中心,为业务应用决策系统提供基础支撑。建设山东黄河云存储体系、数据资源共享中心,构建服务于治黄业务的海量数据存储和管理体系。
         关键词:时空;数据;汇聚;共享
        作为黄河数据中心的关键节点,山东黄河时空大数据中心建设应具有数据多源、多维、大量和多态的大数据特性。除数据整合与交换、在线事务处理及在线分析等常规水利业务应用外,还应具有存贮和应用高分遥感、视频、GIS、物联网等海量多媒体数据,以及通过云平台建设获得的经济高效的计算与存贮资源,能支持高速宽带移动应用,以及应用大数据技术实现水利数据的多维多尺度关联分析以支持决策等功能[1]。
        1.建设目标
        在全面梳理山东治黄业务数据资源的基础上,以“一数一源、一源多用”为原则,以整合、移植、补充为手段,以共享、服务为宗旨,利用和扩充山东黄河信息中心的计算、存储、网络等资源形成山东黄河云,汇聚内容丰富的各类数据资源形成数据资源池,结合大数据采集、挖掘和综合分析等技术构建能动态反映黄河地理空间变化过程的时空大数据服务平台。通过“一云一池一平台”建设,搭建出一套标准统一、互联互通、高度融合、汇聚可视的山东黄河时空大数据中心,为治黄各单位、相关业务部门提供高效的数据服务。
        2.体系架构
        时空大数据中心总体架构由山东黄河云、数据资源池组成。
        山东黄河云:作为大数据中心的基础运行环境主要由计算、存贮硬件、软件及网络环境。硬件组成模式是双机热备式数据库存贮、多台应用服务器相配合,通常由虚拟化资源统一管理平台、调度系统控制的存贮和计算服务集群构成。
        数据资源池:通过进一步整合流域水利行业数据,融合相关行业和社会数据,构建数据资源池,通过多元化采集、主体化汇聚构建全域化原始数据,通过数据汇聚、数据共享交换、数据治理和数据资产管理,构建多层数据体系,实现资源的虚拟化组织,屏蔽了数据的物理存贮异构。
        3.建设内容
        目前省局虚拟化平台由6台服务器和44TB NAS存储、25TB备份存储资源构建组成,存在支撑能力不足、存储资源紧张等问题,已经成为制约业务发展的瓶颈。为此规划在现有虚拟化平台基础上进行扩建,主要包括如下内容:
        ①资源扩容:通过新增万兆交换机、超融合服务器、虚拟化软件、超融合软件、虚拟化安全,构建成为新一代云计算主数据中心架构,满足山东黄河未来3-5年业务发展对数据中心的需求。
        增加2台支持40G端口云平台数据中心核心交换机,构建互联互通安全的高速云平台网络。增加20台超融合服务器(单台配置:CPU 2颗16核心;内存1T;硬盘2块 960G SSD,14块1.8T 10K SAS,双千兆网卡,双万兆网卡,冗余电源)搭建成为新的数据中心云平台(共计CPU资源 640核心,内存资源20T,存储资源500T)。增加云平台服务器虚拟化授权、超融合授权、虚拟化安全授权,满足数据中心扩容服务器需求。
        ②原有资源利用
        扩容建设完成后,将现有物理服务器加入云平台,接受平台统一管理,将现有虚拟机平滑迁移至新的资源池,搭建成为新的业务系统开发测试资源、数据备份资源池。


        扩容现有存储设备50T,满足业务测试和备份需求。新增备份软件一套,支持虚拟机备份、文件备份、数据库备份,支持LAN-FREE备份,支持Linux、windows系统备份,满足100个虚拟机、20个数据库备份需求。扩容现有CDP持续数据保护系统,关键业务系统满足数据安全实时保护,RPO≈0,扩容保护容量10T。
        ③灾备中心:信息中心增加灾备存储,通过1000M裸光纤与省局主数据中心高速互联,通过同步数据复制满足数据一致性,也可接管业务系统,增强数据安全和应用保障能力。
        (2)数据资源池建设
        ①数据资源目录
        结合水利部统一的数据资源目录框架体系和元数据标准,结合山东黄河现有和未来数据种类,实现山东黄河数据资源编目。基于洪水、干旱、水工程安全运行、水工程建设、水资源开发利用、城乡供水、节水、江河湖泊、水土流失、水利监督等业务的数据资源状况,通过对山东省相关行业、涉水管理机构、其他应急管理机构等单位的数据资源调查、梳理和规划,摸清数据资源的供给侧和需求侧,建设信息资源分类体系,实现共享目录和开放目录的一体化建设,提供目录服务功能[2]。
        ②数据汇聚
基于业务的流程与数据分析,统筹考虑各业务工作与职能,突破传统业务条线垂直运作、单部门内循环模式,规划普遍采集、综合分析汇聚引擎,建设具有采集(透传、爬取、手工录入)、清洗、整合、转换、加载、数据管理和数据质量分析服务能力的数据开发工具。通过对各业务系统交换的数据进行梳理、预处理、比对、清洗等,过滤那些不符合要求的数据;通过数据信息比对关联,消除源数据中的不一致性;将数据集中转换成统一格式编码,对与目标数据类型不一致、格式不一致的数据进行转换;将符合标准的数据加载到资源池源数据库中,加载成功后,删除缓冲区中相应数据,并写进日志文件;提供原始数据的查询、修改、版本更新等功能,对数据的每一个过程都记录轨迹,保证数据变动后可追溯;数据质量分析服务:包括数据量、最近入库、有效数据、无效退回数据等统计和分析[3]。
③数据存储管理
        为适应海量结构化、非结构化数据的计算和存储要求,以降低数据存储和处理成本,提升系统横向扩展能力,支持业务发展和大批量数据处理分析的需求,采用基于大数据技术构建源数据、基础数据和主题数据的多层级数据体系。完成业务数据库、ODS数据库、数据仓库、元数据库、空间数据库、遥感影像库、多媒体数据库的划分和建设,实现对结构化、半结构化、非结构化数据的存储管理。
        业务数据库:主要存储有较大的通用性,被其他水利业务所需要的共性数据。该库实现对水利水电工程基础信息、经济社会信息、水调基础信息、水质基础信息、站网基础信息、气象信息、实时雨水情信息、水质信息、工情险情灾情信息、防汛减灾信息、水资源管理信息、政务管理信息、移动业务应用信息的集中存储与管理[4]。
        ODS数据库:为屏蔽原始数据影响,建立ODS数据库,ODS数据库存储的数据与业务数据库的数据相比,只存储结构化数据,同时在原有业务数据库结构基础上增加时间字段和抽取转换加载必要字段。便于数据抽取、转化、加载到数据仓库中。
        5.结束语
构建山东黄河时空大数据中心是一项长期而繁重的任务,通过“一云一池一平台”的建设,搭建出一套标准统一、互联互通、高度融合、汇聚可视的山东黄河时空大数据中心,必将为治黄各单位、相关业务部门提供更加高效的数据服务。
        
参考文献
[1] 程益联,付静. 水利数据整合共享研究[J]. 水利信息化,2014 (6): 13-17.
[2] 万海斌. 全国防汛抗旱指挥系统 3.0 架构与要求[J]. 中国防汛抗旱,2017,27 (3): 4-7.
[3] 丁留谦. 防汛抗旱信息化建设与未来发展思考[J]. 中国防汛抗旱,2017,27 (3): 8-10.
[4] 艾萍,边世哲,袁定波. 智慧防汛抗旱指挥理念简谈[J].中国防汛抗旱,2017,27 (3): 11-14.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: