摘要:大数据分析能够从众多的数据信息中寻找到有用的信息,是挖掘信息的最主要的方式。对有用的信息在进行深入的挖掘和分析,进而能够为科学发展制定策略。大数据计算主要是对大量的数据进行总结和处理的过程,能够有效的解决传统计算的问题,保证数据的准确性。在结合两种大数据处理方式后,构建大数据分析与计算体系架构,既可以处理大量的数据信息,还能对其中可利用的信息进行处理。
关键词:大数据分析;大数据计算;架构
一、大数据分析与大数据计算的含义
(一)大数据分析和大数据计算的特点
目前最热门的研究方向就是对大数据分析和大数据计算的方向,各类行业的专家和学者都参与到研究过程中,这就使得大数据分析和大数据计算成为目前最主流的发展方向。在国外,大数据分析和大数据计算已经逐渐的应用在各行各业中,并且带给各行各业的较多的实际好处。根据美国麦肯锡咨询机构最新发布的数据中可以看出,大数据已经在金融行业、政府管理行业、零售行业、电商行业中发挥出巨大的作用,提高了各行各业的实际销售额度。
(二)如何利用大数据分析技术
在利用大数据分析技术中,最先采用的是亚马逊所推出的“未下单,先调货”计划。在这个计划当中,主要应用大数据技术是对线上的购买数据进行分析与研究,在用户浏览自己的应用时,可以根据以往的浏览记录进行相应的推送,并将其想要购买的货物,提前送达到物流转运中心,进而缩短物流时间,提高用户的购买体验。并且在国内,率先采用大数据分析技术的是阿里巴巴企业。通过对线上数亿级别的商品进行图像识别、大数据分析、三维建模等方式对商品进行检定,确定是不是真正的品牌商品。采用大数据分析技术能够有效的挖掘深藏深处的有利信息,能够保证决策的正确性。
(三)大数据计算
大数据计算的应用可以认为是对众多信息数据进行计算,找到有力的结果的过程,这种数据计算方式比传统的数据方式,提高了数据计算的准确性,并且能够对其计算的过程进行详细的记录。在进行大数据计算的过程时,采用主要的计算模式是对数据进行建立计算模型。计算模型是能够计算大数据最重要的基础,已经对其研究了半个世纪之久。在20世纪40年代,Tuting针对计算数据信息的困难性,因此提出了经典的图灵机计算模型,在这之后,越来越多的人对其进行改进和发展,使其发展成目前应用广泛的大数据计算模型。在对大数据计算时,需要对其进行建立大数据计算的构架,才能够更加准确的计算出信息数据的结果。
二、大数据分析
(一)大数据分析基本概念
大数据的分析主要指的是能够对众多的数据进行统一的分析和研究。大数据分析主要应用的技术是云计算技术、计算机技术等先进的技术,将这些技术应用到对数据的搜集、处理、分析、记录等统计行为中,可以大幅度的提升数据处理的能力,还能保证数据分析的准确性。大数据分析主要通过对算法的优化和建设数据模型进行分析,能够将隐藏在大数据下的有用数据挖掘出来进行对其分析。在目前的大数据分析中,所采用的主要分析方法有BloomFilter、Hashing、索引、并行计算和Trie树等。大数据分析的数据不仅仅是用户产生的数据信息,还能对半结构化和非结构化数据进行分析,发现其中的问题,然后针对产生的数据问题进行处理。科技与信息
(二)大数据分析的基础
大数据分析的基础是利用Hadoop技术对大数据进行处理,在分析过程中,还能对有用的信息进行记录。同时在其运行时,还能结合其余的计算机的资源,将众多的数据信息进行分摊计算,极大地提升了大数据分析处理速度,还能保留分析的过程与结果,保证数据的延展性。
Hadoop分布式文件系统(HDFS)是Hadoop技术的核心技术,能够对大数据进行合理的分析,并且能根据使用要求,对数据进行保存处理,将其存储到不同的计算机上,保证分析数据的准确性和安全性。
三、大数据计算体系架构
大数据计算系统涉及软件分层化、技术复杂化及应用繁多,但研究本质可归结为三个基本系统,即数组存储系统、数据处理系统及数据应用系统,大数据的计算处理不仅涉及各类数据分析及挖掘算法,其计算系统的性能主要依赖于计算模型和计算架构[7]。大数据计算采用的方法和技术主要来源于计算机科学和数学统计学,主要包括计算模型与算法、数据可视化、数据安全、分布式计算体系、数据存储系统、数据抽取与清洗和数据建模等。大数据计算主要采用机器学习方法,可以处理整个数据集,能有效地提高数据结果的可靠性和准确性。大数据计算总体架构中,主要包括数据存储系统、数据处理系统及数据应用系统,其中,数据存储系统主要包括数据采集与建模、分布式文件系统及分布式数据库,数据存储系统主要提供数据采集、清洗建模、大规模数据存储管理和数据操作等功能。数据处理系统主要包括计算模型与算法、计算平台及计算引擎,数据处理系统提供了大数据计算处理能力和应用开发平台。数据应用系统主要包括数据可视化、数据产品与数据服务及各类大数据应用。
大数据计算体系中,数据的采集来源于多种数据,包括非结构化的数据、结构化的数据及半结构化的数据。由于数据的非结构化、异构性及分布式计算等特点,大数据存储系统的设计远比传统的关系型数据库系统复杂的多,当前,大数据存储系统除架构的大数据采集与建模、分布式文件系统及分布式数据库外,还会在NoSQL数据库之上加一个提供数据挖掘和分析功能的数据仓储。数据层主要包括数据采集系统,提供数据的抽取、清洗、转换和数据建模等,分布式文件系统位于大数据采集与建模之上,该层可提供数据的物理存储架构。位于大数据存储系统最上层的是分布式数据库,该层可实现数据的存储管理,还可提供对上层计算引擎和应用软件数据的快速查询功能和数据分析服务的支持。
大数据处理系统主要包括大数据算法、计算模型、计算平台和计算引擎等四个层次,算法部分主要是指数据统计、数据分析和数据预测等相关的算法,一般可分为,分类算法和聚类、关联分析等。计算模型是位于大数据算法之上的一层,主要是根据数据类型和数据处理方式的不同来提供具体的计算模型,并提供计算范式和数据处理的逻辑步骤。计算平台与引擎位于计算模型层之上,可为大数据计算提供技术标准、计算架构及一系列开发技术和工具的开发集成环境,如Hadoop和Spark等。大数据应用系统主要包括大数据可视化、大数据产品与数据服务和各类大数据应用等层次,大数据的应用行业和领域比较广泛,如能源行业、电信行业、餐饮行业、金融行业、汽车行业、零售行业、安全领域、体育娱乐、生物医学及物流等。
结 语
大数据分析是找出隐藏于数据信息中有用信息的主要方式,是挖掘有用价值信息的主要途径,通过分析挖掘出有用信息,为科学决策提供依据。当前,大数据计算遇到了前所未有的挑战,传统的计算理论已经不再适用于海量数据的大数据计算。同时,现有的计算模型也不能准确地表述大数据计算,海量的大数据计算问题的计算复杂性未能够有效得到解决,传统的计算技术又很难满足大数据计算需求。针对这些挑战,提出了一种大数据计算体系架构,以满足大数据计算复杂性理论需求,为研究大数据计算理论性、大数据的挖掘、大数据查询及大数据分析等计算问题的复杂性研究奠定了良好的基础。
参考文献
[1]韩伟红.大数据分析关键技术与挑战[J].信息技术与网络安全,2018(4):7-10.
[2]王元卓.大数据分析系统创新平台与生态建设[J].大数据,2018(1):92-99.
[3]李建中.大数据计算的复杂性理论与算法研究进展[J].中国科学,2016,46(9):1255-1275.
[4]胡敏中.大数据分析的认识特征[J].自然辩证法研究,2018(1):112-117.