摘要:随着社会不断的发展和进步,人们的气象意识和观念的发生了很大的变化,逐渐的提高了不少,同时促进了气象服务日益增强。气象业务已从最初的天气预报发展到目前的气候预报、专业的特殊气象服务、气候可行性论证、公共气象服务、气象防灾减灾等,大数据技术也已成为我国气象工作的有效技术支撑。
关键词:气象数据;数据分析;大数据
经过几十年的发展,气象信息技术获得了极大的进步,也积累了大量来自多方面的气象数据。由于我国气象大数据发展仍在起步阶段,相关方法和技术都需要进一步研究。为充分利用大量的气象数据,相关的数据分析方法研究成为重中之重。该文结合实际工作,总结数据分析方法,介绍气象数据分析存在的相关问题,以期为以后的气象大数据发展奠定基础。
了解常见的数据分析方法对气象数据理解和分析有着重要的意义。
1 数据分析方法
1.1 描述性分析
所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。描述性统计分析的项目很多,常用的如平均数、标准差、中位数、频数分布、正态或偏态程度等。描述性分析的常用指标也较为常见,主要有均值、中位数、众数,极差、方差、标准差、偏度、峰度等。其中不同的指标表示数据的不同信息。均值、中位数、众数体现了数据的集中趋势。极差、方差、标准差体现了数据的离散程度。偏度、峰度体现了数据的分布形状。
描述性分析是一般数据分析方法的汇总,其主要作用为显示数据的基本信息,让分析人员对数据的基本分布有一定了解。具体统计计算方法也是大部分研究者都了解的。利用该方法获得的结果可以让研究者对当前数据有较深的认识,为深入分析数据奠定基础。
1.2 回归分析
回归分析是应用范围非常广的数据分析方法之一。该方法寻求变量之间的相关关系,来揭示数据的内在规律。具体来说,它是研究自变量和因变量之间数量变化关系的一种分析方法,它主要是通过建立因变量Y与影响它的自变量X之间的回归模型,表达自变量和因变量存在的内在逻辑,进而可以预测因变量的发展趋势。
回归分析存在多种具体的回归方法,这些方法通过自变量的个数,因变量的类型以及回归线的形状可以分为以下几个类别。
(1)线性回归。其主要特点是因变量连续,而对应的自变量可以是连续的也可以是离散的,画出来的图像具有线性特点。线性回归也通过因变量的数量分为一元线性回归和多元线性回归两类。其中多元线性回归中有大于1个的自变量,而一元线性回归只有一个自变量。
(2)逻辑回归。逻辑回归方法用于数据的基本分类。该方法是寻求两类数据之间的区别,用一个函数作为分类函数对未知的数据进行类别标注,完成数据类别的预测。逻辑回归方法不要求自变量和因变量是线性相关关系。为了防止数据模型出现过拟合现象,在使用逻辑回归方法时需要筛选自变量以确保自变量和因变量之间存在相关关系。
(3)聚类分析。该方法主要实现数据内部之间的区分,让具有相同数据属性的数据聚合在一起,从而对待分析数据的内涵进行挖掘。基本的聚类方法步骤如下:第一,确定使用哪些指标来对数据进行区分;第二,计算数据指标之间的距离也就是差异程度,一般用空间距离来对比;第三,将差异程度较小的数据归结为一类,形成许多差距明显的类别。
(4)判别分析。判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。该方法在气象上应用也非常广泛,例如利用距离相近的气象站数据来判断未知站的属类;在天气预报中,可以根据前期的天气观测值来判断是哪种天气现象或者是未来的火灾等级。
(5)主成分与因子分析。该方法利用降维的思想,在损失信息较小的前提下,将多个判别指标综合为几个主要指标。每个主要指标都是原始判别指标的线性组合,而且主要指标之间不相关,从而降低数据分析难度,简化数据分析过程,提高分析效率。
(6)时间序列分析。该方法就是对按照时间顺序排列的一组数据序列发现其中的变化规律并用于预测的统计方法。这种方法具有以下3个基本特点:假设事物发展趋势会延伸到未来;预测所依据的数据具有不规则性;不考虑事物发展之间的因果关系。在实际进行时间序列预测时,数据较为复杂,需要对时间序列的四要素进行分析,这四要素的不同组合就影响着时间序列的未来发展。这4种要素分别为长期趋势、季节变动、循环变动、不规则变动。常见的四要素组合方式有两种:一种是4种因素相互独立,可用四要素相加来表示。另一种是4种元素相互影响,可用四要素相乘来表示。
当进行数据分析时,需要对上述4种元素从时间序列中分解出来,这样才能克服其他因素的影响,从而更加客观地反映事物本来的发展规律。总结时间序列分析的预测步骤分为以下4步:
①绘制时间序列图;
②分析序列平稳性;
③建立时间序列模型;
④评估模型预测未来结果。
(7)决策树分析。该方法主要是在已知各种情况发生的概率的前提下,通过形成决策树来计算得到期望值的概率,是直观运用概率分析的方法之一。该方法模拟了人类在决策过程中对数据特征的应用,实现利用少量的数据特征类型来将数据进行分类,并判断未知数据的所属类别。
2 气象数据分析存在的相关问题
随着气象大数据发展的相关要求,气象数据分析业务也逐渐增多。但是由于相关业务发展时间较短,相关业务人员对气象数据的理解程度不同,导致不同气象数据的分析效果大不相同,大量气象数据没有充分利用。经总结,以上问题的主要原因主要包括以下几个方面。
2.1气象数据存储较为杂乱。由于气象数据采集途径不同,导致不同气象数据的对应存储方式也不同。一旦进行气象数据分析时,有可能没有快速及时地获取到全部所需的气象数据信息,影响了气象数据分析的有效性。
2.2气象数据的数据格式不统一。气象数据时间跨度大,不同时期的气象数据的存储格式并不相同。不同格式的气象数据的数据整理相较于相同格式的气象数据更为困难。这就导致了在气象数据分析时,历史数据的使用存在天然的劣势,分析报告质量也受到一定影响。
2.3部分气象业务人员业务不熟练。气象数据分析对业务人员的要求非常高,需要他们能基本了解气象业务同时深度了解气象数据格式和数据特点。但目前气象业务人员的个人能力参差不齐,导致甚至出现不同业务人员对相同气象数据处理得到不同的分析结果。
3 结语
本文对气象数据分析中使用的基本数据方法进行了介绍,分析了不同方法对于待分析数据的要求以及该方法的特点,对今后的工作有一定的指导作用。针对气象数据分析出现的相关问题,相关业务人员应该及时排查自身问题,提高气象业务水平,为今后高效地完成工作打下坚实的基础。
参考文献
[1] 刘喆玥.我国气象大数据的发展趋势研究[J].电脑知识与技术,2019,15(21):252-254.
[2] 王丽,李云鹏,甄熙.浅析互联网大数据在气象行业的应用[J].电脑知识与技术:学术版,2018,14(24):218-219.
[3] 王德青,朱建平,刘晓葳,等.函数型数据聚类分析研究综述与展望[J].数理统计与管理,2018,37(1):51-63.