海量数据处理系统框架关键技术研究

发表时间:2021/3/11   来源:《工程管理前沿》2020年33期   作者:   邓国鹏
[导读] 海量数据处理系统框架属于逆向工程软件的基础部分,该框架主要包括数据采集、模型修补等相关方面。
        邓国鹏
        沈阳飞机工业(集团)有限公司  辽宁 沈阳 110034
        
        摘要:海量数据处理系统框架属于逆向工程软件的基础部分,该框架主要包括数据采集、模型修补等相关方面。然而,该项技术在使用过程中,海量数据处理系统框架存在诸多问题,尤其是三维网格数据存储环节较为薄弱,无法满足人们工作使用需求。为此,如何加大海量数据的储存与显示功能是人们迫切解决的主要问题。
        关键词:海量数据处理系统;框架;关键技术
        引言
        大规模异构感知数据来源于物联网应用中由大量射频识别器、传感器节点等数据采集设备收集的感知信息,由于数据量非常大,一台计算机不可能满足海量数据处理的性能和可靠性等方面的要求,因此,研究更高效的和智能化的海量异构感知数据处理技术将给物联网系统上层应用提供更有力的决策支持和节约大量的存储资源。而云计算技术的应用能有效地增强物联网系统中的数据处理能力,提高物联网系统的智能化程度,通过云计算技术,云中大规模的计算机集群提供了强大的计算能力,通过庞大的计算机处理程序自动将任务分解成若干个较小的子任务,快速对大规模的异构感知数据进行存储、处理、分析和挖掘,并在保证应用时效性的基础上给用户提供决策支持。
        1基于云计算的海量数据处理需解决的关键问题
        构建基于云计算平台的面向物联网大规模异构感知数据流的处理体系需要实现具有高速流数据特征的海量感知数据在云计算环境下的分布式存储技术,以及能有效降低数据处理延迟的实时响应算法和在云计算环境下实现低复杂度的、高效的海量异构感知数据分布式知识发现和并行化数据挖掘算法。需要解决的关键问题有:
        (1)多态异构的感知数据流在云计算环境下的存储问题。物联网感知层的传感器节点、视频监控终端和RFID标签种类繁多、性能各异,采集的数据结构各不相同,有静态数据,也有动态数据。因此需要结合物联网系统应用的特点设计适合于多态异构的感知数据流云存储方案。
        (2)云计算环境下对海量感知数据流处理的时效性问题。物联网中被感知的事物状态可能是瞬息万变的,不管是WSN还是RFID系统,数据采集工作随时进行,数据更新很快,数据量大,无限制的备份历史数据不仅消耗大量存储空间,而且影响数据处理和查询的效率,因此需要解决在不影响感知数据流特征的基础上,增强系统对新数据更新的处理效率,减少数据处理的延迟,提高系统的可靠性和实用性。
        (3)云计算环境下非结构化感知数据流的分析挖掘问题。大多数物联网系统中采集的原始数据是非结构化的,例如:图结构、序列、读入连续测量值等。对于不能用特征向量表示的感知数据流,传统的数据挖掘算法不能直接应用。因此,需要研究怎样自动抽取非结构化感知数据流有用的特征信息,适用于典型的数据挖掘策略。为进一步提高数据挖掘算法的执行效率和解决信息丢失问题,需要更深入的研究非结构化感知数据表示方法,实现能在时空非向量空间中直接执行分析挖掘操作的算法。
        2基于云计算的海量数据处理系统框架的实现
        2.1内存访问技术
        由于海量数据处理系统中需要处理的数据信息较为庞大,而电脑内存量有限,不能对海量数据进行全部储存。针对这种情况,倘若某时刻内存中储存的数据信息只有若干小块,而其他的数据信息则会以文件形式储存在计算机硬盘当中,不利于数据快速查找。

这时技术人员可以采用数据块淘汰策略,也就是说技术人员在访问某块所需要的数据信息时,应该先在计算机内存中进行查找,倘若计算机内存中存在所需要的小块数据信息,技术人员就可以直接对该项数据信息访问。倘若在计算机内存中找不到所需要的小块数据信息,技术人员应在计算机硬盘中将所需要的数据内容重新调入到内存当中,但计算机内存已满无法再输入任何数据信息,技术人员可以将内存中不经常使用的小块数据移动至计算机硬盘当中进行保存。
        技术人员在同时访问多个小块数据文件时,就会需要对许多小块数据进行同时读写文件,然而计算机系统文件资源管理有限,只能同时打开几百个文件,不能上千个小块压缩数据文件进行同时打开访问。由于文件访问数量有限,而技术人员所需要用的文件资源数量已经消耗殆尽,仍旧没有找到所要用的文件内容,这时技术人员应将已经打开的文件关闭,然后再去寻找所要用的文件并进行打开。为了更加准确的对所选择的文件进行淘汰,技术人员应在电脑数据程序中设置一个淘汰策略,该种淘汰策略与内存淘汰策略较为相近,就是将不经常使用的文件进行淘汰。然而这种打开关闭、打开关闭的选择方法速度较慢,只适用于文件淘汰计算方法,对于划分区域网格数据块并不实用,会在网络运行中消耗大量的时间。
        2.2面向对象技术
        海量数据与面向对象技术优化结合以后,可以将海量三角网络格模型视作整体对象,然后将较为抽象的逻辑数据,依照其封装原理进行操作,这样就可以借助面向对象程序设计语言操作海量网格数据。当前,网格数据对象基本分为两个部分,一个部分是内部状态,另一个部分是对网格数据操作方法以及外部影响。其中面向对象设计程序主要是将网格数据作为最基本元素,通过代码操作数据使其可以有效描述内部状态,该程序以数据为核心,利用代码处理技术设计程序数据,从而将代码操作与数据中的函数优化结合,避免该程序受外界函数干扰,致使数据发生改变。由于各种设计方法具有良好的继承性、封装性与多态性,可以有效继承网格数据,大量消除多余代码,并在原有基础上对现有代码进行扩充,这样海量数据处理系统框架模块在构建时,不需要从头开始进行重新构建,减少软件重新开发的时间,提高更新速度。
        2.3系统的云存储方案
        在云计算环境下,针对物联网应用中采集的海量感知数据所具有的异构性、不确定性、高数据流等特点,以提高存储的可扩展性、容错性以及降低存储的能耗等为研究目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布式存储关键技术进行研究,系统的云存储方案采用三层数据存储结构。其中运行支撑数据层负责存储和动态更新感知数据流和计算的中间结果;运行结果数据层负责存储和动态更新最终处理结果;历史数据层负责存储和追加更新历史感知数据,每次数据计算处理后,运行结果数据层中剥取出需要演变为历史资料的数据追加到历史数据层。中央存储调度模块根据相关指令分别调度三层中的数据集合,并保持调度过程中运行支撑数据层和运行结果数据层的数据一致性。
        结语
        总体的说来,在当前这个信息时代的背景下,数据技术不断的发展进步,这对通信产业来讲,带来巨大的发展机遇和技术支撑。但是面对信息化时代,随着技术的提高,通信产业在面对发展机遇的同时也面临着新的挑战。因此在当前我们需要对于数据处理系统进行不但的优化和完善,让其产生新型的应用模式,使其各大通信运营商能够把握住每一个发展机遇,从而在最大的限度当中扩展企业的发展空间,从而加强经济效益。
        参考文献
        [1]周胜群,于治楼,宋欣等.基于云计算的海量数据处理系统框架研究[J].信息技术与信息化,2014(3):118-121.
        [2]胡勇.大数据处理系统的研究进展与展望[J].数码世界,2017(9).
        [3]杨梦.嵌入式大数据平台关键技术研究及实现[D].北京:北京邮电大学,2019.
       
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: