浅析云计算及大数据分析在经济统计中的应用

发表时间:2020/12/17   来源:《城镇建设》2020年26期   作者:谢凤玲
[导读] 就目前的现实情况来说,大数据分析针对自身承载平台所具备的性能有着越来越高的需求,云计算手段和大数据分析的结合也在较大程度上满足了这种性能上的需求变化
        谢凤玲
        (淮北市杜集区统计局,安徽淮北 235037)
        摘要:就目前的现实情况来说,大数据分析针对自身承载平台所具备的性能有着越来越高的需求,云计算手段和大数据分析的结合也在较大程度上满足了这种性能上的需求变化。而经济统计也尚且存在一些问题,假如依然采取传统数据处理方式,将会阻碍经济发展,不能进行深层次的数据分析。基于大数据特征, 统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果评价标准的重建等成为统计学理论面临解决的首要问题。为适应大数据时代的发展,分析了大数据时代传统统计学所面临的机遇与挑战,对传统统计学的继承、发展和完善,重构大数据时代新的统计理论有其重要意义。文章针对大数据分析和云计算之间存在的关系强调云计算大数据分析所具备的优势,并适当结合实际情况说明其实际应用价值。
        关键词:经济统计;理论重构;云计算;大数据分析
        一、统计学是大数据分析的核心
        广泛的经济统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法。②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法。③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等,受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的。或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据。然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征。事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘。
        数的产生基于三个要素,分别是数、量和计量单位。在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数。科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据。从数据中获得科学数据的理论,即统计学理论。科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学。若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求。基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学。以大数据为研究对象, 通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生。
        统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程。而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深。300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题。现在进入了大数据时代,统计学依旧是数据分析的灵魂, 大数据分析是数据科学赋予统计学的新任务。对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇。
        二、大数据时代抽样和总体理论存在价值
        传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体。但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度。但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型。因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事。大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的。
        在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念等等。人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义, 这个问题是大数据时代下,传统统计学面临改进的首要问题。
        三、大数据分析和云计算技术之间的关系分析
        当前在国内和国外均已经拥有很多较为成熟的进行云计算的服务项目;数据分析则是在大数据处理流程当中较为核心性的一个部分,它以数据价值的分析作为主要目的,基于大数据基础之上进行的数据分析,基本上表现于已经获得的大量数据分析工作,它的数据来源有可能是企业,也有可能是互联网和企业之间的融合数据。就当前的趋势而言,云计算作为大数据IT基础,起到支撑平台的作用,数据量不断地增长,需要拥有更高性能的数据平台来进行承载。因此,云计算技术的发展,能够令大数据分析准确性得以提升,且时效性也更加理想;除此之外,云计算出现后,大数据分析也获得了更强的扩展性,同时存储和计算资源的成本也得以降低,令各个中小型企业也能够借助云计算手段来实现大数据分析相关产品。
        事实上,大数据技术手段自身也是作为云计算技术而延伸出去的。在大数据技术当中,涵盖了海量数据存储以及处理,乃至于数据应用等方面的手段,包括海量分布式文件系统、数据库、计算框架并行、智能分析等,例如自然语言理解以及模式识别等。不过,大数据分析如果想要完全走向云计算技术,还需要依赖数据通信带宽是否能够有效提升以及云资源是否能够更好地建设,由此保证原始数据可以安全地转移到云环境当中,同时还需要保证资源池能够依照弹性进行扩展。总的来说,立足于云计算技术的大数据分析技术,就其优势而言包括以下三个方面。其一,可以使用云计算技术中的虚拟化环境,依照业务的实际需求进行计算资源具体配置调整工作,令大数据分析的平台能够得到一定的扩展。其二,能够让详细数据进行粒度分析,有效实现数据自身价值的高度挖掘。其三,有效缩减大数据分析需要耗费的成本,进而提升硬件和软件资源的有效利用效率。以上优势,令大数据服务提供者能够更加专注在数据分析功能的自身优化以及创新上,不需要花费太多的精力和成本来提升平台基本性能,进而令用户获得性价比较为理想的大数据分析技术服务项目。


        四、统计方法在大数据时代下的重构问题
        传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科。从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革。
        从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法。数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化。但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升。
        在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型。去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究。
        大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口。科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程, 而不是简单的由一种形式取代另一种形式。研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替。大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要。
        五、云数据分析在经济统计中的应用
        数据挖掘从根本上来说属于一种交叉性的技术手段,通常来说,数据挖掘手段在实际使用当中需要涉及这样的几个步骤:数据资料的准备、数据的挖掘和结果的分析评估,它的主要功能表现于数据有效分类和数据预测工作,构建起模型,并结合数据总结以及聚类等操作,发现数据当中是否存在异常以及趋势走向分析。这些功能都在较大程度上满足了数据挖掘的基本特征,给使用者提供较好的数据筛选以及预测统计,这些过程都让数据挖掘能够贴近经济统计的实际工作。当前社会经济以及科学技术都获得了较大的发展,数据信息量不断增加,加上计算机技术和数据算法不断涌现,都推进了云计算和大数据分析的发展,同时在数据统计等方面有了广泛的应用。为了能够保证经济统计最终结果的高度精准和可靠性,在经济统计当中,我们需要引入云计算和大数据挖掘的技术手段。
        常见的应用手段包括以下几种。统计分析方法。在经济数据库当中,各个字段项间存在函数关系和其他关系,换言之,需要数据间拥有函数关系表示,同时拥有不能表示的关系,这就需要一定确定性关系,此时可以使用统计分析的形式来针对数据库当中的数据信息展开深层侧分析以及具体探究。神经网络法。所谓神经网络法,即为模拟人体大脑分析信息并进行信息加工的智能信息挖掘手段,人们借助神经网络方式输入信息并进行分析处理,随后输出,即可为企业(或政府部门)正常使用。这种方式在处理信息的过程当中拥有较为理想的准确性以及可靠性,数据也较为完整,便于使用,还能够明确数据联系。假如数据间有经济问题存在,那么就可以全面分析经济问题,随后结合云计算手段,使用适当的处理方式来处理遇到的问题。决策树方法。经济统计的过程当中,有一些必要情况需要建立起模型来帮助分析,决策树就是预测和分析这种模型的方式之一,它基于统计理论当中的非参数识别手段,借助大量信息数据针对性分类和整理,寻找到具备价值的信息以及潜在的一些内容,给企业(或政府部门)的决策起到参考的作用。这种方式具备分类速度较快且描述简洁的优势,所以,可以用在经济运行的过程当中一些大规模处理数据的繁杂工作。粗集理论方法。这是一种不精确且不确定知识的工具,隶属于数学范畴,它是一种借助上下近似集进行不确定问题的分析方式,其算法比较简单,很容易进行操作;同时也不需要提供额外的信息;在最大限度上简化信息输入表达空间。针对一些不确定经济因素,它创造了一种独特的思维方式,也正是这种原则,令经济决策能够和需求更加靠近,应用在如今的云计算背景下,可以创造出更大化的利益。遗传计算法。它结合的是生物自然选择性以及遗传机制当中随机搜索的算法,它的思路结合的是社会问题,收集特定人群的信息,借助隐含信息的针对性整理和分析,获得最终结果。这种遗传算法拥有隐含特征,能够在经济统计工作当中和其他的模型进行有机结合,采集隐含数据,并将这些信息整理起来给予企业(或政府部门)使用。信息数据当中,经济问题始终不断变化和发展,内部存在很多联系,可以使用遗传算法,立足根本进行探究和延伸,获得潜在数据,可以帮助经济统计工作提升质量水平,令经济统计工作变得更加容易操作。
        六、提高统计调查信息安全保障  
        经济社会快速发展,统计数据已经上升为重要的信息资产,使得“互联网+统计”也将成为统计现代化的新常态。大量的国家经济基础数据的安全与否,影响着政府统计调查的可信度和权威性,遵循信息安全保障理论的思想和方法是加强统计调查数据安全的一种可行方法和思路。认证软硬件的来源。安全性核心电子器件、高端通用芯片及基础软件产品是作为信息安全的基础和核心,强化高可信的软硬件研究,是保障数据安全的基础性要求,还要采取保密工作中常规的防护要求。构建数据操作的审计。系统信息安全领域通行的做法是构建面向业务的信息安全审计系统,防火墙、防病毒、入侵检测系统、内外网隔离等解决大部分非法侵入问题,而有效地控制信息安全风险,从“审用户、审角色、审权限”到行为日志的记载,将每个访问和操作行为做全面的记录,确保用户的操作合法合理有依据。保持密级信息处理的离线独立性。通过设立单独的涉密计算机和涉密网络,使得在物理完全隔离方式下,将密级信息和普通的统计调查数据隔离开来。不盲目依赖系统的权限设置等软措施。
        总之,在经济问题当中存在着非常多的联系,而且这些联系也非常复杂,所以,借助数据挖掘手段来展开经济统计,其首要的任务就是定义方面的问题,必须明确经济统计的目的。数据准备必须详细,随后对其进行选择和处理,最后结合数据来进行分析,提取出有用的信息,最终投入到实际的经济问题当中,以期能够尽快解决问题,保证经济运行。基于云计算技术的大数据分析技术如今成为处理大数据问题的一项主要手段,在云计算环境下,大数据分析平台的部署必须参照诸多综合条件,包括硬件环境、软件环境以及网络环境等,令大数据海量信息的积累能够很好地实现其自身价值,凸显出云计算所具备的性能上的优势。而相对地,如果没有云计算作为主要的支撑,也无法展开高效且精准的数据处理和分析,二者相互扶持。而在经济统计当中,云计算技术以及大数据分析结合的方式,能够令经济统计工作获得更加有效的运转。借助这样的技术手段,能够令经济统计工作在保证基本的准确性的基础之上更加准确,对社会经济的发展和国家积累财富都产生积极的影响。
参考文献:
[1]陈清金.云计算环境下的大数据分析[J].邮电设计技术,2015(5).
[2]虞尚智.大数据环境下云计算的技术应用分析[J].中国新通信,2017(26).
[3]陈亮.数据安全交换若干关键技术研究[D].解放军信息工程大学,2018(08).
[4]门凤超.浅谈统计信息化建设[J].经济研究导刊,2019(12).
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: