臭氧(O3)是主要大气污染物之一,O3污染不仅会造成植被生长胁迫、农作物减产等[1],还可能对人体健康造成极大的威胁,例如损害甲状腺功能,导致疲乏、咳嗽、记忆力衰退等症状[2-3],严重影响居民的生产和生活。过去30年,北半球地表O3质量浓度每年以0.5%~2.0%的速率增长[4],我国O3质量浓度也呈现逐年上升的趋势。以广东省为例,2021年O3和可吸入颗粒物(PM10)作为首要污染物的比例分别为74.9%和10.1%[5],可见O3已成为影响该省空气质量达标的首要因素[6]。开展O3质量浓度预测工作是保障人民生命健康安全和及时妥善应对重污染天气的重要技术手段,对区域大气污染联合减排具有指导意义,也有助于全方位打造智慧城市。
现有的O3质量浓度预测方法主要有数值预测和统计预测2大类[7]。数值预测方法多利用光化学网格模型,如社区多尺度空气质量建模系统(WRF-CMAQ)、天气研究和预报模式-化学模式(WRF-Chem)[8-11]等,其准确性主要取决于模型方程与实际情况的吻合程度,对数据种类、完整性、预处理方式均有严格的要求,且需要耗费大量的计算资源;而统计预测方法则以大气污染物的历史数据为基础,建立空气污染物的预测模型。常用的统计预测方法包括广义线性模型[12]、决策树[13]、支持向量机[14-16]等。梁卓然等[17]考虑O3与环流因子之间的关系,将客观环流分析法融入逐步回归模型,用以预测O3日最大8 h平均质量浓度,预测结果的决定系数(R2)可达0.75;丁愫等[13]基于决策树建立O3预测模型,利用多元线性集合预测回归方程进行预测修正,预测结果的R2可达0.52~0.81;蔡旺华等[18]充分考虑了站点所处不同地理位置的影响,应用机器学习方法预测逐小时O3质量浓度,预测结果的平均相对误差为14.21%~19.76%。此外,深度学习方法凭借其强大的大数据深层挖掘和捕捉性能,已成为O3预测的重要方法之一[19-20]。刘宇轩等[21]基于后向传播神经网络进行O3质量浓度预测,1 h预测结果的R2为0.936~0.965,预测精度较高;彭岩等[22]基于自组织映射神经网络和Elman神经网络的集成学习算法预测O3质量浓度,结果表明O3日平均质量浓度的预测值与实测值的拟合优度达到82.11%。
有研究表明,O3质量浓度具有一定的周期性变化规律。温彦平等[23]采用小波分析对太原市城区O3质量浓度的周期性进行研究,结果显示O3时间序列变化周期主要以<4 d的短周期为主;陈锦超等[24]研究表明,O3质量浓度的“单峰”日变化规律具有一定的稳定性。而现有的O3预测研究很少考虑这一特性,将周期性规律引入O3预测模型能否有效提高预测精度亟待进一步探讨。现以珠三角为例,提出一种混合长短时记忆网络(LSTM)和全连接神经网络(FC)的O3预测模型(LSTM-FC),并考虑O3质量浓度随时间变化的周期性规律,以期获取更高精度的预测结果,为城市群大气O3的精细监测和政府决策提供技术支撑。
1 数据来源与研究方法 1.1 数据来源与预处理 1.1.1 数据来源数据来源于珠三角9个地级市(广州、深圳、佛山、东莞、中山、珠海、江门、肇庆、惠州)共计56个空气质量监测站点的O3逐小时观测数据,时间跨度为2018年1月1日—2020年10月30日。空气质量监测站点分布示意见图 1。
数据预处理主要包括基于空间相关性的数据筛选和训练样本构建2个部分,其中,数据筛选是基于皮尔逊相关系数来量化站点间O3质量浓度数据间的空间关联性,进而确定输入邻近站点的数据量(图 2)。对O3质量浓度数据进行分析可知,在相距75 km范围内时,珠三角地区大部分站点O3质量浓度数据间相关系数>0.6(图 3)。基于此,本研究输入数据集由待预测站点(目标站点)数据及其邻近75 km范围内站点(辅助站点)数据组成。训练样本构建主要通过样本匹配将数据集转化为监督学习所需的数据集样式,并使用最大最小标准化方法对数据进行归一化处理。
从季、月和日3个时间尺度分析了珠三角地区在研究时期内的O3质量浓度的变化规律。研究时期珠三角地区各季度O3质量浓度数据均值和方差柱状图见图 4。由图 4可见,珠三角地区O3质量浓度在秋季最高,在冬季最低,而春季和夏季O3质量浓度未表现出显著的大小关系。出现以上规律可能是由于秋季高温且少雨,易发生强烈的光化学反应,有利于O3的生成,同时珠三角地区秋季较为频繁的静风条件不利于O3扩散,从而导致污染积累[25];而冬季由于气温较低、太阳辐射较弱,O3生成作用较弱,O3质量浓度相对较低。另外,秋季O3质量浓度方差比其他季节略大,表明O3质量浓度在秋季的变化相对更为剧烈。
研究时期珠三角地区站点O3质量浓度月度变化箱型图见图 5。由图 5可见,珠三角地区O3质量浓度的月均变化为40~120 μg/m3,且呈现一定的双峰分布特征。每年O3质量浓度的最高值出现在9—11月,次高值多出现在4—5月,最低值则多出现在12月至次年2月。
研究时期珠三角地区站点O3小时平均质量浓度逐时变化箱型图见图 6。由图 6可见,珠三角地区O3小时平均质量浓度为20~140 μg/m3,且呈现显著的单峰分布特征,O3质量浓度在08:00最低,16:00最高。出现上述分布特征的原因可能是O3质量浓度受太阳辐射和气温变化的影响[25-27]。日出之前,由于缺少太阳辐射且气温较低,不利于O3进行光化学合成反应,O3质量浓度较低;而日出后,随着太阳辐射的增强和温度的升高,O3质量浓度逐渐升高,在16:00呈现明显的高峰,后随太阳辐射的减弱和气温的下降,O3质量浓度逐渐下降。
研究表明,大气O3质量浓度与太阳辐射和气温之间具有较强的关联性,呈现以日为周期的变化趋势[23, 25-27]。为定量化地表征O3质量浓度在日尺度上所表现出的周期性,按照以下步骤对数据进行处理与分析:(1)对各站点的O3质量浓度时间序列以自然天(24 h)为单位切分为时序向量Ti(i=1,2,3,…);(2)分别计算滞后24×k(k=1,2,3,…)小时的时序向量Ti+k和Ti之间的相关系数;(3)对选取同一k值下不同i值计算得到的相关系数取平均值和方差,得到滞后24×k小时的时序向量间相关系数的平均值和方差。O3质量浓度的相关系数随滞后时长的变化曲线见图 7。
由图 7可见,不同滞后时长下的相关系数基本平稳在0.56~0.60,且k取不同值时,相关系数的方差相近,表明珠三角地区滞后24 h及其倍数时长之间O3质量浓度数据具有较强的相关性,且这一特征表现稳定。
1.3 考虑周期性的LSTM-FC模型构建的O3质量浓度深度学习预测模型由2个部分组成,分别为长短期记忆神经网络层(LSTM)和全连接神经网络层(FC)。LSTM中包括多种门状结构,如遗忘门、输入门和输出门,其中遗忘门负责确定神经网络遗忘或记住的信息,输入门负责决定传输到单元状态中的信息量,输出门则负责决定传输到输出状态中的信息量[28]。而FC对于线性和非线性预测均能得到较好的效果,两者结合能够在一定程度上解决其他结构所不能解决的复杂问题[29]。
模型的基础输入数据为目标站点和辅助站点与待预报时间点最为临近的12 h数据,其计算公式见式(1)。
$ \begin{array}{*{20}{c}} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{X_0} = \left\{ {X_{{p_i}}^{t - 12}, X_{{p_i}}^{t - 11}, \cdots , X_{{p_i}}^{t - 2}, X_{{p_i}}^{t - 1}\mid i = 0, 1, } \right.}\\ {2, \cdots , s\} }\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \end{array} $ | (1) |
式中:Xt-τpi——站点pi距离当前时刻前τh(τ=1,2,…,12)的实测数据,其中p0为目标站点,p1,p2,…,ps为目标站点的邻近站点;t——当前时刻。
根据1.2.2节对O3质量浓度日周期性变化特征的讨论,考虑O3质量浓度的日周期性变化规律,在基础输入数据(X0)的基础上融入周期性数据。基于待预测时间点,以前溯(a×24)h所对应的时间点作为周期采样时刻点(a为前溯周期数,a=1,2,3,…,m),例如,站点pi所对应的第m个周期采样点数据可表示为Xt-m×24pi。此外,还选取了以周期采样时刻点为中心,长度为n小时的时间窗口内的系列O3质量浓度数据纳入周期性数据,例如,当n=1时,站点pi所对应的第m个周期采样点数据及其周围数据可以表示为
最终模型输出目标站点p0在k小时后的预测结果,即Xt+kp0。考虑周期性的LSTM-FC模型总体结构见图 9。其中,σ代表sigmoid层,tan h代表tan h层,fk代表第k个LSTM层中选择性忘记输入信息的程度,C′ k表示第k个LSTM层中的候选值向量,ik表示在第k个LSTM层中要将候选值C′ o加入的程度,Ok表示在第k个LSTM层中要输出的隐藏状态的权重向量。
基于Python 3.7软件、Keras人工神经网络库与TensorFlow源代码软件库进行深度学习模型的搭建。LSTM神经网络内含有的神经元数量为200,2层FC层中神经元数量各为200;选用的优化算法为Adam;模型迭代次数为200,输入数据批次大小(Batch Size)为72。对预处理后得到的数据集按照8 ∶ 2的比例随机划分成训练集和验证集,分别用于模型的训练和验证。为了全面评估模型的性能,采用多个评价指标对模型进行评估,包括均方根误差(RMSE)、平均绝对百分误差(MAPE)和R2。分别构建了考虑周期性和未考虑周期性的模型,未考虑周期性的模型仅以X0作为基础输入数据,预测未来某时刻的O3质量浓度,而考虑周期性的LSTM-FC模型则是在上述基础上,引入周期性输入数据XT,预测未来某时刻的O3质量浓度。
2 结果与讨论 2.1 结果与分析 2.1.1 预测性能评估不同预测时长(6,12和24 h)下未考虑周期性和考虑周期性的预测效果见表 1。由表 1可见,以预测24 h为例,未考虑周期性的模型预测结果的RMSE、MAPE、R2分别为27.61 μg/m3、85.73%和0.66;而考虑周期性后,3个指标均得到优化,其中RMSE和MAPE分别下降8.18 μg/m3和32.24%,R2提升0.16,模型精度总体改善了32.28%。结果表明,考虑周期性能使模型对预测数据具有更强的解释能力,模型预测准确率更高,预测效果更好。
模型预测结果精度指标随预测时长的变化见图 10(a)—(c)。由图 10可见,模型的整体精度随预测时长波动下降,考虑周期性的模型在各预测时长下的预测精度相较于未考虑周期性的模型均有明显提升。在预测时长达到72 h时,考虑周期性模型的R2仍>0.65,而预测相同时长的未考虑周期性模型的R2已<0.55,说明考虑周期性的模型在长时间预测中优势显著。
根据《环境空气质量标准》(GB 3095—2012)[30],O3 1 h平均质量浓度一、二级的限值分别为160和200 μg/m3。考虑周期性后,大于一、二级质量浓度限值的模型预测结果均得到了一定改善,其精度评估结果见表 2。由表 2可见,相比于未考虑周期性的模型,O3预测结果的RMSE分别下降了18.71%和34.90%;MAPE分别下降了16.35%和39.22%;R2分别提升了40.42%和134.04%,表明考虑周期性的模型能够对中、重度O3污染天气有更好的预警作用。
模型所使用的训练数据集和验证数据集是通过对所有数据进行随机划分获得的,考虑到O3预测模型在实际应用场景中,多以历史数据为基础训练模型来预测未来O3质量浓度,本研究将原始数据集按照时间顺序重新划分为训练集和验证集,其中训练集包含2018年1月1日—2020年5月31日的数据,验证集包含2020年6月1日—2020年10月31日的数据。
深圳市梅沙站和珠海市唐家站未考虑周期性和考虑周期性模型的预测结果见图 11(a)—(d)。
由图 11可见,考虑周期性的模型对高值低估现象具有明显的改善作用,且对O3质量浓度低值部分的预测效果更佳(图中黑框部分),同时,对于O3质量浓度剧烈变化的情况能够取得更加稳定的预测结果。
重新划分数据集后,不同预测时长(6,12和24 h)下未考虑周期性和考虑周期性的预测结果见表 3。由表 3可见,在实际应用场景下,考虑周期性的模型预测12 h后O3质量浓度预测结果的R2仍然>0.6,相比于未考虑周期性的模型表现出较大优势,表明考虑周期性的LSTM-FC模型在实际场景中具备较高的应用价值。
在构建的LSTM-FC模型中对周期性的考虑涉及2个参数,即前溯周期数(m)和在所选取的周期采样时刻点处所开辟的时间窗口大小(n)。现结合模型预测性能和单站点模型训练耗时对2个参数进行讨论。
前溯周期数和时间窗口大小对模型精度的影响见图 12(a)(b)。
由图 12(a)可见,当m<7时,模型预测精度随着m的增大而显著增大;当m=7时,模型预测精度已达到较好的水平;当m为7~60时,随着m的增大模型预测精度变化不明显;当m>60时,模型预测精度进一步得到提升,但模型训练时长也进一步增加。由图 12(b)可见,n由0增加至1时,模型预测精度提升明显;随着n继续增大,模型预测精度增幅放缓,模型训练时长逐渐增加。
考虑前溯周期数和时间窗口大小的增加都能在一定程度上提高模型精度,但同时也增加了模型的训练时长,综合考虑精度与效率,选择的前溯周期数为7,时间窗口大小为2。此外,在O3预测模型的实际应用中,需要根据对模型训练效率的要求选择合适的参数。
3 结论与展望 3.1 结论(1) 考虑周期性的LSTM-FC模型24 h预测结果的RMSE、MAPE和R2分别为19.43 μg/m3、53.49%和0.82,模型精度比未考虑周期性总体提升了32.28%。此外,考虑周期性的模型比不考虑周期性的模型在不同时长下的预测精度表现均更为优异,RMSE和MAPE分别平均下降了8.87 μg/m3和30.66%,R2平均提升了0.17。因此,考虑周期性的模型在长时间预测中优势显著。
(2) 考虑周期性的LSTM-FC模型对低值部分能够取得更好的预测效果,同时,对高值低估现象具有明显的改善作用,对O3质量浓度大于《GB 3095—2012》中O3 1 h平均质量浓度一、二级限值的预测结果,RMSE分别下降了18.71%和34.90%,R2分别提升了40.42%和134.04%,表明考虑周期性的模型能够对中、重度O3污染天气有更好的预警作用。
3.2 展望(1) 珠三角地区O3质量浓度在年尺度下也呈现出一定的周期性,若能捕捉这一数据特征并将其纳入模型,有望进一步提高模型精度。
(2) 考虑O3质量浓度日变化的周期性特征不仅适用于引入LSTM-FC模型,同时也适用于其他机器学习算法和深度学习神经网络模型。另外,模型所预测的对象不局限于O3质量浓度,可以为任何具有显著周期性变化特征的数据。
(3) 本研究仅采用了O3质量浓度数据而暂未考虑其他与O3质量浓度相关的数据,例如其他污染物、气象和遥感数据等。多源数据间往往能够实现信息的互补,加入上述数据有望进一步提高预测精度。
[1] |
刘小正, 楼晟荣, 陈勇航, 等. 基于OMI数据的中国中东部城市近地面臭氧时空分布特征研究[J]. 环境科学学报, 2016, 36(8): 2811-2818. DOI:10.13671/j.hjkxxb.2016.0077 |
[2] |
蒋璐璐, 钱燕珍, 杜坤, 等. 宁波市近地层臭氧浓度变化及预测[J]. 气象与环境学报, 2016, 32(1): 53-59. |
[3] |
CAO Y, QIAO X, HOPKE P K, et al. Ozone pollution in the west China rain zone and its adjacent regions, Southwestern China: Concentrations, ecological risk, and sources[J]. Chemosphere, 2020, 256: 127008. DOI:10.1016/j.chemosphere.2020.127008 |
[4] |
VINGARZAN R. A review of surface ozone background levels and trends[J]. Atmospheric Environment, 2004, 38: 3431-3442. DOI:10.1016/j.atmosenv.2004.03.030 |
[5] |
广东省生态环境厅. 广东省城市环境空气质量状况(2021年10月)[EB/OL]. (2021-11-18)[2022-06-22]. http://gdee.gd.gov.cn/kqzl/content/post_3765325.html
.
|
[6] |
尹文君, 张大伟, 严京海, 等. 基于深度学习的大数据空气污染预报[J]. 中国环境管理, 2015, 7(6): 46-52. DOI:10.16868/j.cnki.1674-6252.2015.06.009 |
[7] |
郭晓雷. 城市空气质量预报方法研究综述[J]. 科技传播, 2011(15): 14-19. |
[8] |
YOUNG H R, ALMA H, GAEL D, et al. Toward a better regional ozone forecast over CONUS using rapid data assimilation of clouds and meteorology in WRF-Chem[J]. Journal of Geophysical Research: Atmospheres, 2019, 124(23): 13576-13592. DOI:10.1029/2019JD031232 |
[9] |
DUAN W, WANG X, CENG S, et al. Influencing factors of PM2.5 and O3 from 2016 to 2020 based on DLNM and WRF-CMAQ[J]. Environmental Pollution, 2021, 285: 117512. DOI:10.1016/j.envpol.2021.117512 |
[10] |
LI X, SETH A, ZHANG C, et al. Evaluation of WRF-CMAQ simulated climatological mean and extremes of fine particulate matter of the United States and its correlation with climate extremes[J]. Atmospheric Environment, 2020, 222: 117181. DOI:10.1016/j.atmosenv.2019.117181 |
[11] |
SHEEL V, BISHT J S H, SAHU L, et al. Spatio-temporal variability of CO and O3 in Hyderabad (17° N, 78° E), central India, based on MOZAIC and TES observations and WRF-Chem and MOZART-4 models[J]. Tellus B: Chemical and Physical Meteorology, 2016, 68(1): 30545. DOI:10.3402/tellusb.v68.30545 |
[12] |
张浩, 蒋艳斌, 孙巍, 等. 基于广义线性模型的地表臭氧浓度的预测[J]. 清华大学学报(自然科学版), 2012, 52(3): 336-339. |
[13] |
丁愫, 陈报章, 王瑾, 等. 基于决策树的统计预报模型在臭氧浓度时空分布预测中的应用研究[J]. 环境科学学报, 2018, 38(8): 3229-3242. |
[14] |
朱佳, 王振会, 金天力, 等. 基于小波分解和最小二乘支持向量机的大气臭氧含量时间序列预测[J]. 气候与环境研究, 2010, 15(3): 295-302. DOI:10.3878/j.issn.1006-9585.2010.03.09 |
[15] |
张建磊, 乐群, 束炯. 最小二乘支持向量机在臭氧浓度时间序列预测中试应用[J]. 江苏环境科技, 2007, 20(3): 43-45. |
[16] |
LUNA A S, PAREDES M L L, DE OLIVEIRA G C G, et al. Prediction of ozone concentration in tropospheric levels using artificial neural networks and support vector machine at Rio de Janeiro, Brazil[J]. Atmospheric Environment, 2014, 98: 98-104. |
[17] |
梁卓然, 顾婷婷, 杨续超, 等. 基于环流分型法的地面臭氧预测模型[J]. 中国环境科学, 2017, 37(12): 4469-4479. |
[18] |
蔡旺华. 运用机器学习方法预测空气中臭氧浓度[J]. 中国环境管理, 2018, 10(2): 78-84. |
[19] |
WANG H W, LI X B, WANG D S, et al. Regional prediction of ground-level ozone using a hybrid sequence-to-sequence deep learning approach[J]. Journal of Cleaner Production, 2020, 253: 119841. |
[20] |
VICTOR R P, JUNSUB Y, DAVID M. Comparison of neural network models with ARIMA and regression models for prediction of Houston's daily maximum ozone concentrations[J]. European Journal of Operational Research, 2000, 122(1): 31-40. |
[21] |
刘宇轩, 应方, 叶旭红, 等. 基于后向传播神经网络的PM2.5和臭氧预测研究[J]. 能源工程, 2020(5): 76-83. |
[22] |
彭岩, 冯婷婷, 王洁. 基于集成学习的O3的质量浓度预测模型[J]. 山东大学学报(工学版), 2020, 50(4): 1-7. |
[23] |
温彦平. 太原市近地面臭氧浓度变化规律及其与气象要素的关系[J]. 环境工程学报, 2015, 9(11): 5545-5554. |
[24] |
陈锦超, 刘东, 王珍珠, 等. 合肥和邢台近地面臭氧浓度日变化个例分析[J]. 大气与环境光学学报, 2018, 13(1): 27-33. |
[25] |
YANG G F, LIU Y H, LI X N. Spatiotemporal distribution of ground-level ozone in China at a city level[J]. Scientific Reports, 2020, 10(1): 1-12. |
[26] |
汪水兵, 刘桂建, 杨鹏, 等. 合肥市臭氧时空分布特征与气象因子影响研究[J]. 大气与环境光学学报, 2021, 16(4): 339-348. |
[27] |
苏志华, 韩会庆, 李莉, 等. 贵阳市臭氧的时空分布、气象作用及其与前体物的关系[J]. 中山大学学报(自然科学版), 2020, 59(5): 102-112. |
[28] |
郑豪, 邓方, 朱佳琪, 等. 基于lstm网络的PM2.5浓度预测研究[C]//中国自动化学会. 2020中国自动化大会(CAC2020)论文集. 2020: 613-618.
|
[29] |
刘梦炀, 武利娟, 梁慧, 等. 一种高精度LSTM-FC大气污染物浓度预测模型[J]. 计算机科学, 2021, 48(S1): 184-189. |
[30] |
环境保护部. 环境空气质量标准: GB 3095—2012[S]. 北京: 中国环境科学出版社, 2012.
|