基于超限学习机算法的空气污染物浓度预测模型

发表时间:2020/12/28   来源:《基层建设》2020年第25期   作者:王金婉
[导读] 摘要:本文以典型空气污染物PM10为研究对象,提出一种基于超限学习机算法的空气污染物浓度预测模型。
        南京大学信息管理学院  南京  210023
        摘要:本文以典型空气污染物PM10为研究对象,提出一种基于超限学习机算法的空气污染物浓度预测模型。实验证明相比传统模型,所提算法的训练速度更快,预测精度更高,同时泛化性和鲁棒性更优。
        关键词:超限学习机;特征选择;空气质量预测
        0 引言
        可吸入颗粒物质 PM10为日常常见的空气污染物[1],能够进入人体的呼吸系统甚至深入肺泡进入人体的血液循环,对人体健康危害极大[2]。因此,对PM10的浓度进行预测具有重要的现实意义。为此,本文提出一种基于超限学习机的空气污染物浓度预测算法。
        1 超限学习机概述
        超限学习机(Extreme Learning Machine,ELM)[3]是一种特殊的单隐层前馈人工神经网络,相比传统神经网络,ELM训练速度更快精度更高。
        给定 个训练样本集 ,激活函数 和隐节点个数L,超限学习机的算法过程可总结如下。
        Step1:随机地设置参数 和 , 。
        Step2:根据公式计算隐层输出矩阵 。
        2 基于ELM的空气污染物浓度预测模型算法描述
        不难发现,经典ELM在模型训练阶段认为所有样本都对模型建立起决定作用,导致ELM缺乏像支持向量机一样的稀疏性。为此,在模型训练过程中,根据留一交叉验证误差 [4]进行动态更新,仅挑选更具价值的样本进行模型训练,提出一种空气污染物浓度预测算法。
        该算法对应的技术路线如图1所示。首先,获取相应的空气质量数据并进行初步预处理;其次,采用皮尔逊相关性分析进行特征选择,选择与PM10浓度变化最相关的变量作为最终的特征变量;然后,根据留一误差进行模型训练,建立空气污染物浓度预测模型,并对PM10进行预测。
 
        图1 技术路线图
        3 仿真实验及结果
        3.1 数据来源
        为验证所提模型的有效性,本文采用澳门气象局网站上公开的空气质量数据进行仿真实验[5]。采集到的空气污染物数据包括可吸入颗粒物质(PM10),二氧化碳(NO2),二氧化硫(SO2),臭氧(O3),以及气象数据包括气压(AtmP),温度(TEMP),平均相对湿度(RH),风速(WS),降雨量(RF),日照时间(SHr)和风向(WD)。
        3.2 数据预处理
        首先按照公式对获取的数据进行标准化处理。
        3.3 特征选择
        空气中PM10颗粒浓度易受多种因素的影响,为避免对噪声数据的过拟合,保证训练样本的简约性,首先需要提取与PM10浓度变化最相关的特征变量。由于主成分分析法得到的派生变量不能明确表示原有变量的物理含义,因此采用皮尔逊相关分析法作为评估方法,用来度量各变量与PM10浓度之间的相关性。
        根据皮尔逊相关系数值(即PCC)选择与PM10浓度变化最相关的若干变量作为最终的特征变量,如表1所示。其中PM10(d+1)表示第二天的PM10污染物的浓度。
        表1 PM10(d+1)与各变量之间的皮尔逊相关系数
        根据表1可知,第二天PM10污染物的浓度和当天的PM10,SO2,NO2,AtmP呈正相关(PCC>0.5),与当天的RH呈负相关(PCC<-0.5)。因此,选择当天的PM10,SO2,NO2,AtmP和RH为特征变量,预测第二天PM10污染度的浓度值。
        3.4 实验结果
        选择Sigmoid函数为隐层激活函数,进行模型训练和建立。同时为验证所提模型的有效性,选择支持向量机(SVM)和决策树(DT)为基线模型。表2所示为三种模型的性能比较,其中,L-ELM为本文所提算法。
        表2 三种模型比较
        由表1可知,所提算法的训练误差和测试误差均优于两个基线模型,证明所提算法能更好地预测PM10污染物的浓度。同时由于ELM避免了复杂的参数迭代过程,仅需通过求解线性方程组即可完成模型的训练,因此所提算法所需的训练时间最短,进一步表明其在空气质量实时预测方面的优势。
        为进一步验证所提算法的泛化性能,比较随着预测步长的增加,三种算法的预测误差大小,如图2所示。
 
        图2 预测误差比较
        由 2可知,从整体上看,相比于两个基线模型,随着预测步长的增加,所提算法的预测误差相对较小,表明所提算法的预测性能更优。此外,所提算法对应的预测误差变化曲线相对更加平稳,表明其具有更好的泛化性和鲁棒性。
        结束语
        与传统模型相比,本文提出的基于超限学习机的空气污染物浓度预测模型训练速度更快,预测精度更高,数值稳定性更好。
        参考文献:
        [1] 王永晓,曹红英,邓雅佳,等.大气颗粒物及降尘中重金属的分布特征与人体健康风险评价[J].环境科学,2017,38(09):3575-3584.
        [2] 贾云飞,陈春静,王恒学,等南京市大气PM_(10)短期暴露对心血管疾病死亡的影响[J].环境与职业医学,2020,37(08):753-758.
        [3] Huang G,Zhu Q,Siew C.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1-3):489-501.
        [4] 刘学艺,李平,郜传厚.极限学习机的快速留一交叉验证算法[J].上海交通大学学报,2011,45(8).
        [5] 地球物理暨气象局.污染物浓度[EB/OL].[2020-8-5].http://www.smg.gov.mo/www/ccaa/iqa/fe_iqa.htm.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: