2. 江苏环保产业技术研究院股份公司,江苏 南京 210036
2. Jiangsu Academy of Environmental Industry and Technology Corp., Nanjing, Jiangsu 210036, China
近年来,随着工业化进程的加快和城市化规模的扩大,大气细颗粒物(PM2.5)污染已成为严重威胁人类健康的环境问题之一[1-2]。尽管我国在PM2.5防治方面取得了显著成效,但仍然时有重污染事件的发生,给环境保护带来巨大挑战[3-4]。通过对影响PM2.5重污染事件的各种因素进行识别和分析,可以为制定更有效的PM2.5重污染应急调控策略提供科学依据。
目前,化学传输模型是识别PM2.5污染事件驱动因素最常用的方法,但其存在着运算耗时长、时效差、预测结果误差大等问题[5]。与化学传输模型相比,机器学习模型能够处理复杂的非线性问题,预测ρ(PM2.5)的性能较优[6],并且分析速度更快、成本更低。但是,由于大多数机器学习模型的“黑盒”性质,这些结果在物理可解释性方面不那么稳健[7]。Lundberg等[8]提出了一种基于博弈论的沙普利加和解释(SHAP)方法,用于量化输入特征对模型预测的影响,该方法有助于识别大气污染的驱动因素[9]。
长江三角洲地区(以下简称“长三角地区”)经济快速发展的同时伴随着污染排放强度和排放密度急剧增加,导致大气环境质量的下降,再加上冬季不利的气候条件,长三角地区冬季PM2.5污染问题较为显著[10-11]。人为排放和气象条件被认为是影响PM2.5的2个最重要的因素[3, 12]。按照成因的不同,PM2.5可以分为一次和二次颗粒物[13],其中二次颗粒物由二氧化硫(SO2)、氮氧化物(NOx)、氨气(NH3)和挥发性有机物(VOCs)等前体污染物在大气中经过复杂化学反应形成,而这与前体污染物的排放、气象条件关系密切[13-14]。因此,本研究选择长三角地区作为研究区域,基于气象参数和大气污染物排放清单数据构建随机森林模型,并进行SHAP可解释性分析,识别影响重污染天气中ρ(PM2.5)的驱动因素。
1 数据来源和研究方法 1.1 数据来源选择长三角地区作为研究区域,包括安徽省、江苏省、浙江省和上海市4个省市,共包含41个城市。收集了2017年1,2,11,12月的PM2.5监测数据、气象数据、大气污染物排放清单数据。
截至2017年12月,长三角地区共有196个国控监测站点。站点每小时ρ(PM2.5)数据、城市24 h移动平均ρ(PM2.5)数据从中国环境监测总站的全国城市空气质量实时发布平台(https://air.cnemc.cn:18007/)下载。
气象数据来自欧洲中期天气预报中心(ECMWF)的ERA5-Land小时数据集[15],包括10 m纬向风速(u10)、10 m经向风速(v10)、2 m露点温度(d 2 m)、2 m温度(t 2 m)、地表净太阳辐射(ssr)、地表压力(sp)、总降水量(tp),空间分辨率为0.1°×0.1°。
大气污染物排放清单数据来自中国高分辨率大气污染物集成清单[16-22],包括电力、工业、民用、交通、溶剂使用、农业、生物质开放燃烧、船舶八大部门的SO2、NOx、一氧化碳(CO)、非甲烷挥发性有机物(NMVOCs)、NH3、黑碳(BC)、有机碳(OC)排放数据,该数据为逐月数据,空间分辨率为0.1°×0.1°。
1.2 重污染事件定义“重污染事件”是指24 h移动平均ρ(PM2.5)超过国家环境空气质量二级标准(75 μg/m3) 且至少持续48 h[23-24]。本研究只关注较为严重的污染事件[25],即污染时段内24 h移动平均ρ(PM2.5)峰值>100 μg/m3。
1.3 模型构建和验证采用随机森林回归模型来预测ρ(PM2.5)。随机森林是一种集成学习方法,由多个决策树构成[26]。每个决策树对随机抽样的训练数据和特征子集进行训练,然后通过取平均值的方式进行回归预测。这种集成策略降低了过拟合风险,提高了模型的泛化能力。随机森林回归适用于处理各种类型的数据,并且不需要对数据进行线性假设。它能够捕捉输入特征之间复杂的非线性关系,并且对异常值具有一定的鲁棒性。
使用Python的sklearn.ensemble模块中的RandomForestRegressor类构建随机森林模型。对于筛选出的各个重污染事件,以各监测站点为基本空间单元,将气象数据、大气污染物清单数据以及站点经纬度作为输入特征。随机选择80%的数据作为训练集,分别构建模拟各站点每小时ρ(PM2.5)的随机森林模型,使用GridSearchCV对模型进行调参,最终设置决策树的数量为300,叶子节点最少样本数为1,节点可分的最小样本数为2,不设置树的最大深度。将剩余20%的数据作为预测集进行预测,通过计算决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)评估最终模型的泛化能力。
1.4 SHAP可解释性方法在传统的随机森林模型中,输入变量与每个预测结果之间的关系并不明确[9],无从得知各输入变量在模型中如何发挥作用。为了解决这个问题,本研究应用了SHAP可解释性方法[8, 27-28]定量识别各输入变量对模型的影响,从而分析各重污染事件的驱动因素。该方法构建了不同输入变量的组合,通过计算目标输入变量存在与否引起的模型输出的平均变化,来阐明目标输入变量的重要性。简而言之,有变量(例如j)的模型预测与没有j 的预测之间的差异归因于变量j 的边际贡献。每个输入变量的SHAP值是该输入变量边际贡献的加权平均值。
SHAP可解释性方法可以输出各输入变量的贡献值,从而计算变量的贡献权重。不同的输入变量对模型预测ρ(PM2.5)的贡献权重不同,可以通过计算变量j的SHAP特征重要性与全部变量重要性的比值,定量解析变量j的贡献权重。
2 结果与讨论 2.1 重污染事件特征分析长三角地区2017年1,2,11,12月24 h移动平均ρ(PM2.5)时间分布见图 1(a)(b)。由图 1可见,2017年1月发生了2次重污染事件,12月发生了2次重污染事件,分别命名为HE1,HE2,HE3,HE4。在HE1和HE4中,24 h移动平均ρ(PM2.5)峰值均>140 μg/m3。4次重污染事件的时间分布见表 1。由表 1可见,HE1和HE3的持续时间均>100 h。
![]() |
图 1 长三角地区2017年1,2,11,12月24 h移动平均ρ(PM2.5)时间分布 |
![]() |
表 1 4次重污染事件的时间分布 |
4次重污染事件期间ρ(PM2.5)空间分布见图 2(a)—(d)。由图 2可见,安徽省北部以及江苏省东部地区ρ(PM2.5)较其他地区高;重污染事件HE1中,PM2.5污染更为严重且污染区域更广。
![]() |
图 2 4次重污染事件期间ρ(PM2.5)空间分布 |
模型对预测集的拟合效果见图 3(a)—(d)。由图 3可见,基于气象参数、清单数据构建的随机森林模型预测ρ(PM2.5)小时值的泛化能力均较强(R2>0.910)。
![]() |
图 3 模型对预测集的拟合效果 |
各重污染事件PM2.5预测模型总SHAP图和变量贡献权重饼图见图 4(a)—(h)。
![]() |
图 4 各重污染事件PM2.5预测模型总SHAP图和变量贡献权重饼图 注:lat和lon分别表示站点的纬度和经度。 |
变量含义参见1.1节,输入变量按SHAP值排序,对模型性能影响较大的变量排序靠前,SHAP图展示了各重污染事件中影响最大的前12个变量,对于各个变量,每个彩色点代表数据中每个样本的SHAP值,而色调代表观察到的变量从高(红色)到低(蓝色)的实际值。权重饼图展示了各重污染事件中不同变量的贡献权重占比。由图 4可见,各气象要素对于ρ(PM2.5)影响的重要性(贡献权重占比85%左右)高于排放清单中各污染物的影响(图 4中用emission表示,其贡献权重占比15%左右)。
2.3.1 主要气象驱动因素分析大量统计分析研究表明,气象条件对我国空气质量有着不容忽视的作用[29],本研究也证实了该结论。典型气象因素对ρ(PM2.5)的影响见图 5(a)—(d)。由图 5可见,在重污染事件HE1和HE4中,对ρ(PM2.5)小时值影响最大的气象要素分别为tp和ssr;在重污染事件HE2和HE3中,对ρ(PM2.5)小时值影响最大的气象要素均为d 2 m。
![]() |
图 5 典型气象因素对ρ(PM2.5)的影响 |
在HE1中,tp较小(<0.002 m)时,降水会导致ρ(PM2.5)小时值升高(SHAP值为正);但随着tp的升高,降水会导致ρ(PM2.5)小时值降低(SHAP值为负)。这可能是由于在tp较低时,降水会增加大气的相对湿度,从而促进多相化学反应的进行,加速二次颗粒物的形成,同时会促进颗粒物的吸湿增长[30]。而在tp较高时,雨水的冲刷作用会使PM2.5沉降,从而降低ρ(PM2.5)小时值。这一结论也在先前的研究中得到验证[29]。
在HE4中,当ssr较低时(<7.3×106 J/m2),会使ρ(PM2.5)小时值升高(SHAP值为正);而ssr较高时(>7.3×106 J/m2),会使ρ(PM2.5)小时值降低(SHAP值为负)。
在HE2和HE3中,d 2 m对ρ(PM2.5)小时值的影响均呈现先上升再降低的态势。该气象要素在重污染事件中发挥重要作用可能由于它能够同时反映大气温度和湿度[31],对PM2.5的形成有着复杂的影响。
2.3.2 主要排放源驱动因素分析各次重污染事件中交通源排放的SO2对ρ(PM2.5)的影响见图 6(a)—(d)。由图 6可见,交通源排放的一次污染物在4次重污染事件中都起到了重要作用,特别是来自交通排放的SO2在HE1,HE2,HE4中的影响均排序靠前。交通源SO2排放量较大时,会使得上述重污染事件中ρ(PM2.5)上升(SHAP值为正),这可能由于SO2在大气中经过复杂的化学反应形成了二次PM2.5[32]。这也说明了来自交通排放的SO2会加剧PM2.5的污染,其影响不容忽视。在12月的2次重污染事件HE3和HE4中,农业排放的NH3是PM2.5重要的一次排放驱动因素(图 4)。当农业NH3排放量较大(>8 t)时,SHAP值>0,说明ρ(PM2.5)增加。已有研究表明,NH3是大气中唯一的碱性气体,农田氮肥和有机肥的NH3挥发是大气NH3的主要来源之一[33],我国是全球农业NH3排放的热点地区[34],大量的农业NH3挥发会加剧区域大气二次PM2.5的污染[35]。但是,值得注意的是,当排放量较小时,SHAP值<0,说明农业NH3对PM2.5的影响较为复杂。
![]() |
图 6 各次重污染事件中交通源排放的SO2对ρ(PM2.5)的影响 |
同时,来自溶剂使用的VOCs也是HE3和HE4中影响ρ(PM2.5)小时值的重要驱动因素。重要排放源对ρ(PM2.5)的影响见图 7(a)—(d)。由图 7可见,因溶剂使用而排放的VOCs大多会使ρ(PM2.5)小时值升高(SHAP值为正)。VOCs主要通过大气光氧化过程、成核过程、凝结和气/粒分配过程以及非均相反应等化学过程生成二次有机气溶胶[36],是大气中二次PM2.5的重要前体物之一[37]。而溶剂使用源是我国大气VOCs最主要的工业来源之一[38],因此来自溶剂使用的VOCs排放对PM2.5的影响不容忽视。
![]() |
图 7 重要排放源对ρ(PM2.5)的影响 |
本研究基于随机森林模型和SHAP可解释性方法,量化识别了2017年1,2,11,12月长三角地区4次重污染事件的驱动因素的贡献情况。研究发现:(1)基于气象数据和大气污染物排放清单数据构建的随机森林模型能够挖掘变量间复杂的非线性关系,对于ρ(PM2.5)小时值的预测精度较高(预测集R2>0.910);(2)基于SHAP可解释性方法可以量化模型中各变量的贡献值,从而识别各重污染事件中影响ρ(PM2.5)小时值的驱动因素;(3)气象要素对于ρ(PM2.5)小时值影响贡献权重比排放清单中各污染物的贡献更高,其中tp、ssr和d 2 m都是其重要的驱动因素。排放清单的污染物中,交通源SO2、农业NH3和溶剂VOCs都对ρ(PM2.5)有较为重要的影响。
近年来,我国在PM2.5防治方面取得了显著成效,ρ(PM2.5)年均值下降显著,但重污染事件仍然时有发生,已成为我国空气质量管理的重要问题之一。通过机器学习和SHAP可解释性方法,可以对影响PM2.5重污染事件的各种因素进行识别和分析,为PM2.5排放管理,制定更有效的PM2.5重污染应急调控措施提供科学依据,为保障人民群众的健康和生态环境的可持续发展提供重要支撑。
[1] |
MORAWSKA L, ZHU T, LIU N, et al. The state of science on severe air pollution episodes: Quantitative and qualitative analysis[J]. Environment International, 2021, 156: 106732. DOI:10.1016/j.envint.2021.106732 |
[2] |
BURNETT R, CHEN H, SZYSZKOWICZ M, et al. Global estimates of mortality associated with long-term exposure to outdoor fine particulate matter[J]. Proceedings of the National Academy of Sciences, 2018, 115(38): 9592-9597. DOI:10.1073/pnas.1803222115 |
[3] |
AN Z, HUANG R J, ZHANG R, et al. Severe haze in northern China: A synergy of anthropogenic emissions and atmospheric processes[J]. Proceedings of the National Academy of Sciences, 2019, 116(18): 8657-8666. DOI:10.1073/pnas.1900125116 |
[4] |
FU H, CHEN J. Formation, features and controlling strategies of severe haze-fog pollutions in China[J]. Science of The Total Environment, 2017, 578: 121-138. DOI:10.1016/j.scitotenv.2016.10.201 |
[5] |
胡冬梅. 基于时空数据挖掘的城市空气污染分析与预测[D]. 北京: 清华大学, 2020.
|
[6] |
VU T V, SHI Z, CHENG J, et al. Assessing the impact of clean air action on air quality trends in Beijing using a machine learning technique[J]. Atmospheric Chemistry and Physics, 2019, 19(17): 11303-11314. DOI:10.5194/acp-19-11303-2019 |
[7] |
LI T, ZHANG Q, PENG Y, et al. Contributions of various driving factors to air pollution events: Interpretability analysis from Machine learning perspective[J]. Environment International, 2023, 173: 107861. DOI:10.1016/j.envint.2023.107861 |
[8] |
LUNDBERG S M, LEE S I. A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2017: 4768-4777.
|
[9] |
HOU L, DAI Q, SONG C, et al. Revealing drivers of haze pollution by explainable machine learning[J]. Environmental Science & Technology Letters, 2022, 9(2): 112-119. |
[10] |
ZHONG S, QIAN Y, SARANGI C, et al. Urbanization effect on winter haze in the Yangtze River Delta Region of China[J]. Geophysical Research Letters, 2018, 45(13): 6710-6718. DOI:10.1029/2018GL077239 |
[11] |
LIU Y, WANG B, ZHU Q, et al. Dominant synoptic patterns and their relationships with PM2.5 pollution in winter over the Beijing-Tianjin-Hebei and Yangtze River Delta Regions in China[J]. Journal of Meteorological Research, 2019, 33(4): 765-776. DOI:10.1007/s13351-019-9007-z |
[12] |
DANG R, LIAO H. Severe winter haze days in the Beijing-Tianjin-Hebei region from 1985 to 2017 and the roles of anthropogenic emissions and meteorology[J]. Atmospheric Chemistry and Physics, 2019, 19(16): 10801-10816. DOI:10.5194/acp-19-10801-2019 |
[13] |
ZHANG R, WANG G, GUO S, et al. Formation of urban fine particulate matter[J]. Chemical Reviews, 2015, 115(10): 3803-3855. DOI:10.1021/acs.chemrev.5b00067 |
[14] |
刘厚凤, 杨欣, 陈义珍, 等. 中国重霾过程污染气象研究进展[J]. 生态环境学报, 2015, 24(11): 1917-1922. |
[15] |
MUÑOZ S J. ERA5-Land hourly data from 1950 to present[DB]. Copernicus Climate Change Service(C3S) Climate Data Store(CDS), 2019.
|
[16] |
HUANG X, LI M, LI J, et al. A high-resolution emission inventory of crop burning in fields in China based on MODIS Thermal Anomalies/Fire products[J]. Atmospheric Environment, 2012, 50: 9-15. DOI:10.1016/j.atmosenv.2012.01.017 |
[17] |
HUANG Z, ZHONG Z, SHA Q, et al. An updated model-ready emission inventory for Guangdong Province by incorporating big data and mapping onto multiple chemical mechanisms[J]. Science of The Total Environment, 2021, 769: 144535. DOI:10.1016/j.scitotenv.2020.144535 |
[18] |
KANG Y, LIU M, SONG Y, et al. High-resolution ammonia emissions inventories in China from 1980 to 2012[J]. Atmospheric Chemistry and Physics, 2016, 16(4): 2043-2058. DOI:10.5194/acp-16-2043-2016 |
[19] |
LIU H, FU M, JIN X, et al. Health and climate impacts of ocean-going vessels in East Asia[J]. Nature Climate Change, 2016, 6(11): 1037-1041. DOI:10.1038/nclimate3083 |
[20] |
ZHENG B, CHENG J, GENG G, et al. Mapping anthropogenic emissions in China at 1 km spatial resolution and its application in air quality modeling[J]. Science Bulletin, 2020, 66: 612-620. |
[21] |
ZHOU Y, ZHAO Y, MAO P, et al. Development of a high-resolution emission inventory and its evaluation and application through air quality modeling for Jiangsu Province, China[J]. Atmospheric Chemistry and Physics, 2017, 17(1): 211-233. DOI:10.5194/acp-17-211-2017 |
[22] |
ZHOU Y, ZHANG Y, ZHAO B, et al. Estimating air pollutant emissions from crop residue open burning through a calculation of open burning proportion based on satellite-derived fire radiative energy[J]. Environmental Pollution, 2021, 286: 117477. DOI:10.1016/j.envpol.2021.117477 |
[23] |
WANG Y, YAO L, WANG L, et al. Mechanism for the formation of the January 2013 heavy haze pollution episode over central and eastern China[J]. Science China Earth Sciences, 2014, 57(1): 14-25. DOI:10.1007/s11430-013-4773-4 |
[24] |
ZHENG G, DUAN F, MA Y, et al. Episode-based evolution pattern analysis of haze pollution: Method development and results from Beijing, China[J]. Environmental Science & Technology, 2016, 50(9): 4632-4641. |
[25] |
DAI Q, DING J, HOU L, et al. Haze episodes before and during the COVID-19 shutdown in Tianjin, China: Contribution of fireworks and residential burning[J]. Environmental Pollution, 2021, 286: 117252. DOI:10.1016/j.envpol.2021.117252 |
[26] |
BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324 |
[27] |
LUNDBERG S M, ERION G G, LEE S I. Consistent individualized feature attribution for tree ensembles[J/OL]. arXiv, https://arXiv,2018:1802.03888. DOI: 10.48550/arXiv1802.03888.
|
[28] |
LUNDBERG S M, ERION G, CHEN H, et al. From local explanations to global understanding with explainable AI for trees[J]. Nature Machine Intelligence, 2020, 2(1): 56-67. DOI:10.1038/s42256-019-0138-9 |
[29] |
潘晨, 康志明. 2001—2019年气象条件对江苏省PM2.5分布的影响[J]. 环境科学, 2022, 43(2): 649-662. |
[30] |
DING J, DAI Q, ZHANG Y, et al. Air humidity affects secondary aerosol formation in different pathways[J]. Science of The Total Environment, 2021, 759: 143540. |
[31] |
HUANG Y, GUO B, SUN H, et al. Relative importance of meteorological variables on air quality and role of boundary layer height[J]. Atmospheric Environment, 2021, 267: 118737. |
[32] |
ZHANG R, WANG G, GUO S, et al. Formation of urban fine particulate matter[J]. Chemical Reviews, 2015, 115(10): 3803-3855. |
[33] |
SUTTON M A, VAN DIJK N, LEVY P E, et al. Alkaline air: Changing perspectives on nitrogen and air pollution in an ammonia-rich world[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2020, 378(2183): 20190315. |
[34] |
MA R, ZOU J, HAN Z, et al. Global soil-derived ammonia emissions from agricultural nitrogen fertilizer application: A refinement based on regional and crop-specific emission factors[J]. Global Change Biology, 2021, 27(4): 855-867. |
[35] |
XU W, ZHAO Y, WEN Z, et al. Increasing importance of ammonia emission abatement in PM2.5 pollution control[J]. Science Bulletin, 2022, 37(17): 1745-1749. |
[36] |
谢绍东, 田晓雪. 挥发性和半挥发性有机物向二次有机气溶胶转化的机制[J]. 化学进展, 2010, 22(4): 727-733. |
[37] |
李红, 彭良, 毕方, 等. 我国PM2.5与臭氧污染协同控制策略研究[J]. 环境科学研究, 2019, 32(10): 1763-1778. |
[38] |
王红丽, 杨肇勋, 景盛翱. 工艺过程源和溶剂使用源挥发性有机物排放成分谱研究进展[J]. 环境科学, 2017, 38(6): 2617-2628. |