Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

基于 PCA-SSA-Elman 的西安空气质量指数预测论文

发布时间:2022-08-16 11:38:06 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):
 
  摘要:随着中国经济的快速发展和城市人口的持续增长,大气环境急剧恶化,空气污染问题愈发严重。准确预测空气质量,及时采取有效防治措施显得尤为重要。本文基于西安市2020年1月至2021年12月空气质量指数日均值数据、空气质量等级以及同期气象数据,建立了PCA-SSA-Elman模型来预测西安市的空气质量指数。结果表明:PCA-SSA-Elman模型的MAPE仅为0.0255%,RMSE为3.0818,MAE为2.1491,误差指标评价值均小于其他对比模型,具有较高的拟合度和精确度。

  关键词:空气质量预测;Elman神经网络;麻雀搜索算法

  Prediction of Xi'an Air Quality Index Based on PCA-SSA-ELman

  ZHANG Yunfei,WANG Wanxiong

  (Gansu Agricultural University Faculty of Science,Lanzhou Gansu 730070)


  【Abstract】:With the rapid development of China's economy and the sustaining growth of urban population,the atmospheric environment has worsen sharply,and the air pollution trouble has become more and more severe.It is particularly vital to predict the air quality availably and take effective prevention measures timely.In this paper,PCA-SSA-Elman model is established to predict the air quality index of Xi'an city from January 2020 to December 2021 based on the daily mean data of air quality index,air quality grade and meteorological data of the same period.The results show that the MAPE of PCA-SSA-Elman model is only 0.0255%,RMSE is 3.0818,and MAE is 2.1491.The evaluation values of error indicators are all smaller than those of other comparison models,and it has highfitting degree and accuracy.

  【Key words】:air quality prediction;Elman neural network;sparrow search algorithm


  0引言

  近年来,未加处理的污水直接排出与汽车尾气的大量排放,使我国的生态环境遭到了一定程度的破坏,雾霾天气频出,对人们的健康和生活产生严重影响[1]。西安作为全国空气污染较为严重的代表城市,空气质量问题也备受外界关注。因此,掌握污染物与空气质量变化的规律,预测近期内的空气质量状况,采取措施来改善空气污染和提升空气质量就成为人们关心的首要问题。

\
 

  正因为如此,对空气污染问题的研究就备受学者关注。尹淇[2]等用IPSO-SVM算法与GA-SVM算法对比预测了太原市空气质量指数AQI。BP神经网络的季节预测模型[3]被提出来预测秦皇岛市的空气质量。姜新华[4]等提出主成分分析的方法来研究影响呼和浩特市空气质量的因素。牛玉霞[5]利用GA算法优化BP神经网络的阈值与权值,通过天气预报的影响因素建立空质量预测模型,提高模型的预测精度和拟合度。

  由于Elman神经网络可以精确近似任意非线性函数,可以有效地解决非线性问题。因此,本文在分析空气质量影响因素过程中考虑空气质量等级和气象因素,并对气象因素进行PCA降维,利用SSA算法对Elman神经网络初始权值和阈值进行优化,得到空气质量指数最终预测结果。

  1基本理论

  1.1主成分分析(PCA)

  主成分分析是一种应用广泛的线性变换降维方法,反映多个变量之间的相关性。其主要思想是把高维的数据通过某种线性投影方式映射到低维空间,得到最大的信息量,将存在相关性的原始数据重新组合成数据之间不相关的主成分。由于特征向量之间线性不相关,故可以消除原始数据成分间的相互影响。主成分分析的步骤如下:

  (1)原始数据构成Xn×m矩阵,其中n表示数据个数,m表示维数。

  (2)为了消除单位和量纲不同对数据进行标准化处理,得到矩阵Zn×m

       \

  (3)根据式(1)求出协方差矩阵R=(rij)n×m。

       \

  (4)由式(3)求出特征根λi,得到贡献率ei和累积贡献率E。

 \

  1.2 Elman神经网络

  Elman神经网络是由J.L.Elman提出的一种典型的动态递归的循环神经网络,可以把反映过去的时间段作为输入信息,使系统具有适应时间变化的动态特性[6]。与BP神经网络结构组成相比增加了承接层,可以存储隐含层的信息,使系统有随时间变化的能力。层之间的连接权重可以通过不断学习来修正。其数学表达式为:

      \

  公式中f为隐含层的输出函数,x为n维隐含层矢量。z表示输出层的传递函数,y为k维输出矢量。t表示当前所处时刻,μ为m维输入矢量;xc为n维反馈状态矢量。ω1、ω2与ω3为承接层-隐含层、输入层-隐含层与隐含层-输出层的连接权重。

  网络的误差函数如下:

    \

  其中ydt是网络结构输出层各个节点的数学期望,p为样本数。

  1.3麻雀搜索算法(SSA)

  麻雀搜索算法是通过对麻雀的觅食与躲避捕食者行为的模拟提出一种群体智能优化算法。此算法具有良好的稳定性和收敛速度,可以用来探索未知区域,避免陷入局部最优的局面[7]。麻雀搜索算法具体过程如下:

  (1)X表示一个麻雀种群,想要优化问题的维数设为d。

       \

  其中f为适应度函数,F为适应度值。

  (3)发现者的位置更新:

      \

  其中t为迭代次数,j为问题维数,itermax是迭代次数上限。α的取值范围在[0,1],R2和ST取值范围分别是[0,1]和[0.5,1]。L是1×d的矩阵,d为列数。

\
 

  当Rz<ST时,说明此时觅食的麻雀周围没有危险靠近;当Rz≥ST时,说明此时发现者随机移动到麻雀附近,麻雀遭遇危险同时会通知种群其他成员。

  (4)加入者位置更新:

       \

  Xp和Xworst分别表示此时发现者最优和最差的位置。A为1×d的矩阵,满足A+=AT(AAT)-1。i>n/2表明加入者在此时并没有找到最优值,加入者需要到其他位置进行寻优获得较优的值。

  (5)外围种群个体的侦察预警每一次迭代中,位置更新的表达式为:

       \

  β是步长控制参数,遵循标准正态分布。K是[-1,1]的均匀随机。fg与fW是麻雀在最优与最差位置的适应度值,ε是最小常数。

  1.4 PCA-SSA-Elman预测模型

  Elman神经网络的初始权值和阈值选取具有随机性,使得网络最优的权值和阈值很难确定,影响网络的训练和预测准确率,故采用SSA算法优化权值和阈值,并将结果赋值到网络中。在Elman神经网络迭代过程中计算网络误差并更新权值和阈值,在达到精度要求的情况下预测空气质量指数。PCA-SSA-Elman神经网络的具体过程如下:

 \

  (1)对气象数据进行主成分分析处理;

  (2)确定训练集、验证集和测试集;

  (3)建立初始种群,确定种群个数及迭代次数;

  (4)生成最初的麻雀种群个体位置,确定适应度函数;

  (5)更新发现者和跟随者位置;

  (6)选择侦察预警者并更新警戒值位置;

  (7)判断是否满足终止迭代的条件,满足条件则退出,否则重复上面过程,直到满足条件;

  (8)把获取到最优的权值和阈值赋值给Elman神经网络用以训练、验证和测试,得到优化后的Elman神经网络。

  2数据来源与预处理

  数据来源包括两部分,一部分是污染物浓度(PM2.5、PM10、SO2、CO、NO2、O3的浓度)、AQI值与空气质量等级,取自中国空气质量在线监测分析平台[8]。另一部分是气象数据,其来源于中国气象数据网站。选取的数据时间从2020年1月1日至2021年12月31日,共731组数据,监测间隔为天,无缺失值。数据的预处理(包括PCA、数值化、归一化)如下:

  2.1 PCA处理

  对数据之间存在较高的相关性的气象数据进行降维处理,减少各数据之间的相互作用,精简神经网络结构。使用SPSS25进行主成分分析,具体过程如下:如表1所示,KMO检验统计量值为0.746,Bartlett球形检验p值<0.05,表明变量之间具有高度相关性,可以进行主成分分析。

\

  如表2所示,前3个主成分的累计方差贡献率为90.426%,也就是说,前3个主成分的信息损失为9.574%,起到了降维作用。

\
 

  如表3所示,第一主成分主要反映了空气及地表的冷热程度、太阳辐射强弱影响的作用,第二主成分主要反映了空气中的水汽压的作用,第三主成分主要反映了风速的作用。主成分系数是表5成分载荷数值与对应特征值算术平方根的比值,得到影响空气质量指数指标的3个主成分。表达式如下:

\
 

  \

  将标准化后的数据Zxi代入主成分表达式中得到数值,用其代替原始气象数据输入网络进行训练。

  2.2数值化处理

  空气质量等级中共六个级别,为优、良、轻度污染、中度污染、重度污染与严重污染,对其进行数值化处理,优至严重污染分别用1至6来表示。

  2.3归一化处理

  为减小数据之间的量纲影响进行归一化处理。归一化转换函数如下:

   \

  其中x*为归一化后的值,max(x)为数据最大值,min(x)为数据最小值。

  3模型参数设置与结果分析

  3.1模型参数设置

  基于Matlab2019a对AQI值进行预测,建立PCA-Elman、SSA-Elman、PCA-SSA-Elman、Elman、PCA-BP、PCA-GA-BP六种预测模型。SSA-Elman模型参数为种群数量为20,最大迭代次数为20,训练次数为10000,学习速率为0.01,最小性能梯度为1e-6,最高失败次数为6。GA-BP模型中种群数量为10,最大迭代次数为30,交叉概率为0.7,变异概率为0.02。输入层为当天的污染物、数值化处理后的空气质量等级和PCA降维后的气象数据,,输出层为当天的AQI值。隐含层传递函数为tansig,训练函数为trainglm,输出层传递函数为purelin。

  经过预处理的731天的数据包括污染物浓度,数值化后的空气质量等级和PCA降维后的气象数据F1、F2和F3。用数据的后10%,即73天作为测试集,剩下的657天的数据中的十分之一,取65天用来做交叉验证,剩下的593天作为训练集。即2020年1月1日至2021年8月15日为训练集,2021年8月16日至2021年10月19日为验证集,2021年10月20日至2021年12月31日为测试集。

  3.2实验结果分析

  将数据输入PCA-Elman模型得到的实验结果如图2所示。

\
 

  如图3所示,可以看出麻雀搜索算法的收敛曲线随着迭代次数的增加,适应度的值是不断下降的,说明麻雀搜索算法对模型起到了从优化的作用。如图4所示,绝大多数的预测曲线与真实曲线都较为接近。PCA-SSA-Elman模型比没有优化的PCA-Elman预测模型预测误差更小,精确度更高。
\
 
  对不同模型预测结果作进一步分析,建立模型拟合效果的评价指标体系来对比评价建立模型的优劣,评价指标体系包括三个衡量指标:平均绝对误差(MAE)、均方根误差(RMSE)和平均相对误差绝对值(MAPE)。

  如表4所示,根据预测结果误差分析可知,采用改进的PCA-SSA-Elman模型对AQI值进行预测,平均相对误差绝对值为0.0255%,均方根误差为3.0818,平均绝对值误差为2.1491,误差指标评价值均小于其他对比模型。与文献[1]、文献[3]、文献[9]、文献[10]相比,PCA-SSA-Elman预测模型可以提高预测的拟合度和精确度。因此,使用此模型来预测西安市的AQI值是可行并且有效的。

\

  4总结与建议

  在空气质量预测模型的构建上,单一模型的预测精度受到一定的限制,需要多种模型组合进行预测,来提高预测的精确度。由于影响AQI的因素很多,用PCA对气象因素进行降维处理,在一定程度上可以提升预测的精度。PCA-SSA-Elman预测模型的建立,可以为人们的出行提供参考,有利于相关部门制定空气污染防治措施。想要改善西安的空气质量,应优化能源的结构,减少废气的排放,降低污染物指数。用清洁能源代替旧能源,缓解环境污染问题。加大绿化力度,大面积植树造林,从而起到净化空气的作用。

  参考文献

  [1]甘露情,刘媛华.基于BP-SVR组合模型的空气质量指数预测[J].软件导刊,2020,19(10):80-83.

  [2]尹琪,胡红萍,白艳萍,等.基于GA-SVM的太原市空气质量指数预测[J].数学的实践与认识,2017,47(12):113-120.

  [3]田静毅,范泽宣,孙丽华.基于神经网络的空气质量预测与分析[J].辽宁科技大学学报,2015,4(38):131-136.

  [4]姜新华,薛河儒,张存厚,等.基于主成分分析的呼和浩特市空气质量影响因素研究[J].安全与环境工程,2016,23(1):75-79.

  [5]牛玉霞.基于遗传算法和BP神经网络的空气质量预测模型研究[J].软件,2017,38(12):49-53.

  [6]韦蕊.基于Elman神经网络的共享单车管制研究[J].信息与电脑(理论版),2019(12):152-153.

  [7]孙全,孙渊.基于麻雀搜索算法的BP神经网络优化技术[J].上海电机学院学报,2022,25(1):12-16.

  [8]尤游,张林静.贝叶斯正则化BP神经网络在空气质量指数预测中的应用[J].重庆科技学院学报(自然科学版),2022,24(1):78-82.

  [9]鲍慧.基于BP-GA神经网络的六安市空气质量预测研究[D].合肥:安徽大学,2015:27-29.

  [10]邱敬怡,赵璇.基于SVR-BP算法的江苏省空气质量指数预测[J].南通大学学报(自然科学版),2020,19(1):42-47.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
 

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/41630.html

相关内容

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml