本文摘要:摘要:文章主要研究空氣質(zhì)量指數(shù)(AQI)預測的問題,由于大氣中含有PM2.5、CO以及SO2等多種污染物,使得AQI的預測更加復雜。為解決時間序列數(shù)據(jù)存在的波動問題,采用集合經(jīng)驗模態(tài)分解EEMD對原始AQI數(shù)據(jù)進行分解,得到IMF分量和殘余分量;又因為絕大多數(shù)的時間序
摘要:文章主要研究空氣質(zhì)量指數(shù)(AQI)預測的問題,由于大氣中含有PM2.5、CO以及SO2等多種污染物,使得AQI的預測更加復雜。為解決時間序列數(shù)據(jù)存在的波動問題,采用集合經(jīng)驗模態(tài)分解EEMD對原始AQI數(shù)據(jù)進行分解,得到IMF分量和殘余分量;又因為絕大多數(shù)的時間序列數(shù)據(jù)中既包含線性關系又包含非線性關系,而傳統(tǒng)的LSTM網(wǎng)絡針對線性數(shù)據(jù)可能產(chǎn)生過擬合現(xiàn)象,為此提出改進的LSTM網(wǎng)絡,以加強對線性關系的表示。實驗結(jié)果表明,將EEMD與改進的LSTM網(wǎng)絡相結(jié)合形成的組合預測模型比傳統(tǒng)模型的泛化能力更強、預測精度更高。
關鍵詞:空氣質(zhì)量指數(shù);長短時記憶神經(jīng)網(wǎng)絡;集合經(jīng)驗模態(tài)分解;固有模態(tài)分量
0引言
如何實現(xiàn)對空氣質(zhì)量指數(shù)(AQI)的高精度預測是一個重要的研究議題,對城市發(fā)展以及國民健康都有積極的意義。傳統(tǒng)的AQI預測模型主要有三類:第一類是原始的數(shù)學統(tǒng)計模型,如主成分回歸模型(PCR)[1]、多元線性回歸模型(MLR)[2]等,假設在線性條件下,這些原始的數(shù)學統(tǒng)計模型可以取得相對較好的預測效果,但AQI數(shù)據(jù)是混沌的、無序、非平穩(wěn)的,所以諸如此類的數(shù)學統(tǒng)計模型已經(jīng)不再適用了。
空氣質(zhì)量分析: 秋季秸稈焚燒對臨汾市空氣質(zhì)量的影響分析
第二類是基于機器學習技術,如支持向量機回歸(SVR)[3]、BP神經(jīng)網(wǎng)絡[4]等,但是神經(jīng)網(wǎng)絡等模型通常需要海量的樣本,而且極容易陷入局部最優(yōu);第三類是將上述兩種模型組合成混合模型,如周劍峰(2018)[5]將因子分析法(FA)與支持向量機(SVM)進行結(jié)合用于熱門微博的預測;Voukantsis等(2011)[6]將主成分分析法與神經(jīng)網(wǎng)絡相結(jié)合進行預測,提高了預測的有效性;張瑞和李雅梅(2018)[7]將主成分分析法(PCA)與最小支持向量機(LS-SVM)相結(jié)合進行預測,這些預測模型均沒有考慮數(shù)據(jù)的波動。另外,研究還發(fā)現(xiàn),時間序列數(shù)據(jù)在通常情況下波動較為嚴重,直接使用原始AQI數(shù)據(jù)進行預測會使得結(jié)果產(chǎn)生較大誤差。
為了提高預測精度,本文采用EEMD對存在較大波動的AQI數(shù)據(jù)進行降噪分解,得到具有穩(wěn)定性且有不同頻率的IMF分量和一個殘余序列,以消除波動對預測帶來的影響。通常情況下,非線性的時間序列數(shù)據(jù)也可能包含線性關系,而傳統(tǒng)的LSTM網(wǎng)絡在處理這類數(shù)據(jù)的預測問題時,往往存在過擬合現(xiàn)象,為此本文提出改進的LSTM網(wǎng)絡,加強對數(shù)據(jù)中線性關系的表示,以期提高AQI預測結(jié)果的精度。
1基本理論
1.1EEMD分解基本原理
傳統(tǒng)的經(jīng)驗模型分解(EMD)[8]在對時間序列數(shù)據(jù)進行分解時會產(chǎn)生虛假分量和模態(tài)混疊的問題,嚴重影響模型的預測結(jié)果。為了解決這一問題,有人提出了集合經(jīng)驗模態(tài)分解(EEMD)[9],這是針對EMD分解的一種改進。
1.1.1EMD分解步驟
對于任意一組時間序列數(shù)據(jù)x(t),進行EMD分解的步驟如下:(1)記m1(t)、m2(t)分別為時間序列x(t)的極大值和極小值,并且分別擬合成包絡線。對這兩條包絡線取均值,記為n1(t):n1(t)=m1(t)+m2(t)2(1)計算IMF分量h1(t):h1(t)=x(t)-n1(t)(2)如果h1(t)滿足上述IMF分量的兩個條件,則將h1(t)作為第一個IMF分量;否則,視之為原始時間序列。重復上述計算過程,進行k次判斷之后,得到的分量h1k(t)滿足IMF分量的兩個條件,此時的h1k(t)即可作為時間序列x(t)的第一階IMF分量,記為c1(t):c1(t)=h1k(t)(3)(2)第一階IMF分量的剩余信號為r1(t),則:r1(t)=x(t)-c1(t)(4)根據(jù)上述計算過程,對r1(t)進行多次分解,直到n次分解之后的rn(t)為單調(diào)函數(shù),才結(jié)束分解。通過n次分解可以得到n個IMF分量c1(t)c2(t)cn(t),和n個剩余信號r1(t)r2(t)rn(t)。
此時原始時間序列數(shù)據(jù)可以表示為:x(t)=åj=1ncj(t)+rn(t)(5)1.1.2EEMD分解步驟對于任意一組時間序列數(shù)據(jù)x(t),進行EEMD分解的步驟如下:(1)對時間序列數(shù)據(jù)x(t)疊加高斯白噪聲序列ω1(t)得到新的疊加序列X(t):X(t)=x(t)+ω1(t)(6)(2)依據(jù)上述EMD的分解過程,對X(t)進行分解,得到各個IMF分量:X(t)=åj=1ncj(t)+rn(t)(7)(3)對上述時間序列數(shù)據(jù)x(t)疊加不同的高斯白噪聲序列ωi(t),并重復上述計算過程,可以得到不同白噪聲序列對應的各階IMF分解量:Xi(t)=åj=1ncij(t)+rn(t)(8)(4)高斯白噪聲的均值為零,因此x(t)對應的IMF分量為:cn(t)=1Nåi=1ncin(t)(9)其中,N表示加入高斯白噪聲序列ωi(t)的總次數(shù)。
2改進的EEMD-LSTM預測模型
2.1改進的LSTM網(wǎng)絡
改進后的LSTM網(wǎng)絡的輸出公式為:Yt=VtCt+ån=0t-1WntXn(17)其中,{X0X1Xt-1}是LSTM網(wǎng)絡的輸入值,{YtYt+1Yt+n}為輸出值,{W0tWtW(t-1)t}、{W0(t+1)Wt(t+1)W(t-1)(t+1)}分別是輸入、輸出的直接權重,C是當前LSTM細胞的狀態(tài),V是系數(shù)。2.2改進的EEMD-LSTM模型本文構建如圖2所示的EEMD-LSTM預測模型,對空氣質(zhì)量指數(shù)AQI進行預測。(1)空氣質(zhì)量指數(shù)(AQI):太原市的空氣質(zhì)量指數(shù)。
(2)AQI的數(shù)據(jù)序列分解:通過EEMD將AQI分解成不同尺度的IMF分量以及殘余分量RES,使這些分量較為平穩(wěn),并具有不同的局部特征信息。(3)改進的LSTM網(wǎng)絡模型預測:針對由EEMD分解得到的每一個IMFi,i=123⋯n以及殘余分量RES,采用改進的LSTM模型進行預測,獲得第t+1天每一個IMF的預測值IMF'it+1和殘余分量RES的預測值r'nt+1。(4)AQI預測:將IMF分量和殘余分量RES的預測結(jié)果相加以求和,得到第t+1天的AQI預測值AQI't+1:AQI't+1=åi=1nIMF'it+1+r'nt+1(18)
3實驗與結(jié)果分析
3.1數(shù)據(jù)來源
空氣質(zhì)量指數(shù)(AQI)綜合了PM2.5、PM10、CO、SO2、O3以及NO2六種污染物,描述了空氣質(zhì)量狀況,并將空氣質(zhì)量劃分為優(yōu)(0~50)、良(51~100)、輕度污染(101~150)、中度污染(151~200)、重度污染(201~300)、嚴重污染(大于300)六個級別[10]。太原市是山西省的政治、經(jīng)濟、文化中心,工業(yè)化、城鎮(zhèn)化程度比較高,空氣質(zhì)量一直備受關注。本文研究所用的太原市空氣質(zhì)量指數(shù)原始數(shù)據(jù)(2018年7月1日至2019年7月1日)主要來源于中華人民共和國生態(tài)環(huán)境部數(shù)據(jù)中心和PM2.5歷史數(shù)據(jù)網(wǎng)站。
本文提出的改進的EEMD-LSTM模型對AQI的預測精度最高。其nRMSE指標比SVM模型、RNN模型以及LSTM模型的nRMSE指標分別下降了23.75%、64.12%和34.39%;而對應的MAPE指標則分別下降了24.51%、64.35%和35.83%。綜上所述,基于改進的EEMD-LSTM模型的AQI預測結(jié)果具有更高的預測精度,優(yōu)于SVM模型、RNN模型以及LSTM模型。
4結(jié)束語
為了提高對AQI的預測精度,本文提出了一種改進的EEMD-LSTM預測模型。其中,為了解決時間序列數(shù)據(jù)波動大的問題,采用EEMD對AQI進行分解,得到IMF分量和殘余分量;為了解決時間序列數(shù)據(jù)中包含線性和非線性成分的問題,對傳統(tǒng)的LSTM網(wǎng)絡進行了改進,即將輸出與輸入進行連接。通過改進的LSTM網(wǎng)絡對EEMD進行分解,得到各個分量并進行預測,通過PSO算法進行LSTM網(wǎng)絡參數(shù)尋優(yōu),對各個分量的預測結(jié)果求和得到AQI的預測結(jié)果。實驗充分驗證了本文提出的改進的EEMD-LSTM模型是一種高效、精確的預測模型。
參考文獻:
[1]SliniT,KaratzasK,MoussiopoulosN.StatisticalAnalysisofEnviron⁃mentalDataastheBasisofForecasting:AnAirQualityApplica⁃tion[J].ScienceoftheTotalEnvironment,2002,(3).
[2]VlachogianniA,KassomenosP,KarppinenA.EvaluationofaMulti⁃pleRegressionModelfortheForecastingoftheConcentrationsofNOxandPM10inAthensandHelsinki[J].ScienceoftheTotalEnvi⁃ronment,2011,(8).
作者:史學良1,李梁2,趙清華1
轉(zhuǎn)載請注明來自發(fā)表學術論文網(wǎng):http:///jjlw/27854.html