大数据技术下海洋测绘数据的存储与挖掘

发表时间:2021/6/15   来源:《科学与技术》2021年第29卷2月5期   作者:厉峰
[导读] 在计算机信息技术快速发展的背景下,社会已经进入了信息化时代,
        厉峰
        青岛数联空间海洋科技股份有限公司  山东省青岛市266590
        摘要:在计算机信息技术快速发展的背景下,社会已经进入了信息化时代,大量的数据产生于社会中的各个领域,同时大数据技术在数据信息的处理上也得到了普遍的应用。在对海洋资源进行开发的过程中,对海洋环境的变化进行有效的测绘,就需要实现采集、存储和处理相应的海洋测绘数据,这时对于海量海洋测绘数据的处理和应用也成为了越来越多学者关注的问题。在开发海洋资源过程中,要及时测绘海洋环境的变化就需要有效的实现对海洋测绘数 据的采集、 存储和处理。我国目前正在建立一个立体化的海洋测绘系统,势必会使海洋测绘数据呈现从 GB、TB 到 PB级别的增长。大数据技术的关键是并行存储、分布式计算,它们可以有效解决海量海洋测绘数据存在的复杂、异构以及海量的问题。
        关键词:大数据技术;海洋测绘;数据分析与存储   
        近年来,海洋测绘新兴技术的迅猛发展,给海陆测绘领域带来了极大变化,海洋测绘全面推进制度化、规范化、程序化建设,不断提高航海保障能力和服务水平,满足用户需求。数据获取比以往更加方便快捷,数据管理由传统的单机体系转向网络体系,在数据输出、应用等方面,实现了从纸质图输出到多种海图产品并存的新模式。海洋测绘逐渐从单一的测量和地图绘制工作向测绘数据高效生产、管理、维护与应用服务等方向发展,航海图书产品类型逐年丰富,港口航道图发行量显著增加,满足了国家全面深化改革和海洋强国战略实施的需要。海洋测绘的数字化、自动化和规范化,极大地丰富了海洋测绘数据,提升了海图发行量,为保障国家海洋权益和航海安全,提供了极大的便利。但是随着海洋测绘的技术逐渐发展,历史积累的各种海测数据、海图资料、技术文献日益繁多,海洋测绘数据的管理任务日益繁重。因此,建立一个测绘资料数据库管理系统,高效地管理海事测绘数据,提高测绘数据的使用效率,成为当前海洋测绘工作中的重要部分。
        一、大数据技术
        目前应用广泛的大数据技术主要包括 Hadoop 、Hbase 、 Hive 等。作为一个分布式计算平台 ,Hadoop 包括 HDFS 文件系统和 MapReduce 计算框架两部 分;HDFS 是一个并行的文件系统,提供高扩展性、高容错性,保证用于能够将大量低廉机器组织为一个分布式系统,以存放并管理海量数据。作为一个分布式 文件系统,HDFS 非常容易扩展,在存储海量海洋测绘数据时不需要将数据存放在一个集中的服务器上,而可以分散存储于不同的节点。 HDFS的目的就是存放 海量数据,所以比较适合处理TB甚至PB级别的数据。 MapReduce 也是 Hadoop 的核心组件,是一种并行计算模型,可以利用大量计算机的运算处理能力解决复杂的技术问题。HBase 是一个分布式 NoSQL数据库,和传统的关系型数据库不 同,HBase 产生之初的目的是处理数据量很大的表,处理能力高达10 亿行 ; HBase 存储海量数据时通常结合 HDFS 文件系统。 HBase 中的数据表现为稀疏 的、多维度的映射表,其中行关键字、列关键字以及时间戳充当了行索引,所有数据都是字符串类型 。Hive 是基于 HDFS 文件系统的数据仓库框架 ,其组成部分和功能包括 : ETL工具、 数据存储管理、 大型数据集的查询等 ; 查询 是通过类似SQL的 HiveQL 实现的。 Hive 提供了命令行( CLI )及图形界面 ( WebGUI ) 两种用户接口, 也通过 Thrift server 提供了API接口。
        二、海洋测绘数据
        海洋测绘数据种类繁多,不仅包括温度、 盐度、 深度等水文信息,也包含 地址信息、生物信息以及遥感信息等,这些不同类型 的数据有不同的特点,在对它们进行存储和处理时需要考虑到它们的处理需求和存储格式。在分析了海量 的海洋测绘数据后可以发现,海洋测绘数据的特点如下:
        1、海量。

在进行海洋测绘时会有大量的监测点,它们收集到的数据结构复杂,而且是动态变化的,这就决定了势必会 产生大量的测绘数据,仅仅使用本地存储难以满足海量数据的存储需求。
        2、数据格式及结构存在差异。不同的测绘数据的记录格式是不同的 , 存储结构也随之不同,造成测绘数据在存储时并没有一个统一的数据结构标准 。已经收集到的海量海洋测绘数据包含了海洋、地址、水文等多方面工作人员的辛劳汗水, 所以在收集到的数据的积累、 存储等方面需要慎重考虑,需要结合海洋测绘数据的特点提高存储、处理的高效性和安全性;另外,还需要考虑海洋测绘数据的稳定性。海洋测绘数据的种类很多,比如海底地形数据、海岸带航空遥感数据、海岸线测量数据等,不同 种类的数据格式也存在很大的差异,这就需要对这些有差异的数据进行数据加工处理,形成标准统一的矢量数字海图、航空摄影正射数字影像等。
        三、大数据技术下海洋测绘数据的存储与挖掘
        1、数据的存储。对于采集到的海洋测绘数据,一般都会先保存在本地系统之中,然后在大数据技术的支持下,借助Hadoop所提供的API将采集到的有关数据上传到HDFS文件系统中。对于测绘过程中所布置不同的测绘点而言,在大数据技术下能够以一个统一的身份将采集到的海洋测绘数据传送到HDFS文件系统中,并且能够成功上传到HDFS文件系统的数据一般都是以一种透明的组织形式存在的,即HDFS文件系统会与本地存储系统拥有一个对应的位置,而采集到的海洋测绘数据会不间断地传送到这个位置上,同时会按照固定的时间间隔传送到HDFS文件系统中。
        2、数据挖掘。经过一系列的过程将采集到的海洋测绘数据上传到HDFS文件系统中后,就要面对存储的大量的海洋测绘数据进行相应的数据挖掘分析,从而找到有价值并满足相关需求的数据信息,而在这个过程中就会用到相应的数据挖掘工具。数据挖掘工具的管理层主要作用是用于海洋测绘数据和用户之间进行信息交互的交互界面,相关用户通过借助数据挖掘工具的管理层,就可以实现对采集到的海洋测绘数据进行上传、下载或者浏览等操作,从而对数据进行有效的处理。数据挖掘工具的计算层通常会给用户提供常用的数据挖掘分析算法,用户通过使用相应的和数据挖掘分析算法,就可以对大量的海洋测绘数据进行相应的计算,从而得到自己需要的数据信息。而用户通过数据挖掘工具的存储层,可以借助HDFS文件系统对海洋测绘数据相关的文件进行很好的保存,并且在存储大量的海洋测绘数据的同时,也能够实现数据的冗余备份。通常在进行数据挖掘的时候,Hadoop分布式计算平台中的HDFS分布式文件系统内,并没有与之相关的文件,这个时候就需要将海洋测绘数据上传到HDFS文件系统中。在对大量的海洋测绘数据进行相应的数据挖掘后,就会得到相应的中间文件和结果文件,这两种文件也都是保存在HDFS文件系统中,如果用户想要在本地对这些文件进行访问来获取相应的信息,就需要再将这些文件下载到本地的文件系统中,然后进行相应的查询。
        由于我国的海洋面积辽阔,在进行海洋测绘的过程中就会出现种类繁多并且复杂的数据,海量的海洋测绘数据在存储方面也是值得重点关注的问题,而在当今计算机信息技术和物联网技术快速发展的背景下,大数据技术已经普遍的应用于社会中的多个领域,在数据的处理方面表现出强大的能力。在海洋测绘过程中所应用到的大数据技术,对目前情况下常常用到的大数据技术做了相应的介绍,其中应用最广泛的是大数据技术是Hadoop技术。用户可以很好地对采集到的海洋测绘数据进行存储、处理等操作,在海洋测绘数据的处理上表现出了很大的优势。本研究对海量的海洋测绘数据所存在的复杂性、异构性,采用具有并行存储、分布数计算等特点的大数据技术,能够帮助用户有效地解决海洋测绘数据所存在的问题,从而为海洋资源的开发和利用提供相应的保障。
        参考文献:
        [1]黄小苑,周毅仪.海洋测绘资料管理系统设计与实现[J].海洋测绘,2018,28( 5) : 42 - 44.
        [2]蔡忠亮,杜清运,毋河海.大比例尺地形图交互式综合系统数据库平台的建立[J].武汉大学学报: 信息科学版,2017( 3) : 291 - 295.
        [3]刘 波.海洋测绘信息数据库动态更新系统的设计与实现[J].测绘科学,2018,33( S2) : 17.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: