浅析随机森林模型在卫星遥感大气污染柱浓度缺失数据中的应用
一、研究背景
及时发现生态环境问题,精准掌握生态环境变化,客观反映环境保护成效,全面评估生态环境质量,是生态环境保护工作的重要方面。近年来,卫星遥感凭借非现场、连续性、全覆盖的特点,在生态环境保护工作中发挥了越来越重要的作用。通过遥感反演的污染物浓度数据,可以快速识别污染高值区和空间聚集特征,结合污染源分布情况,可以对重点区域制定针对性更强的减排或管控措施。在应急管理方面,遥感数据可用于快速评估突发污染事件的影响范围和强度,为应急响应、调度资源和发布预警提供支持。
然而,云量的存在会影响遥感反演数据的精度和空间完整性。高云覆盖区域可能遮挡地面信号,导致污染物浓度反演结果缺失或偏低,从而在空间分布图中产生空洞或低估污染水平。因此,在数据处理和环境管理决策中,需要对云量进行筛选或补全,以提高遥感数据的可靠性和实用性。通常,研究者会先剔除云量超过阈值的像元(如 cloud_fraction > 0.3 或 0.5),以保证反演数据的可靠性。传统处理方法主要有两类:其一,在统计时间序列平均值(如日均、月均、季均)时,直接忽略缺失像元,仅对有效数据求平均,直接忽略缺失值可能导致空间分布出现空洞,尤其在云覆盖多的地区,高值区可能被低估;其二,对缺失格点进行基于空间距离的插值处理,如反距离加权(IDW)、克里金插值(Kriging)或样条插值(Spline),以获得连续的空间分布图,但是简单的空间插值仅依赖周围格点的值,未能充分利用气象变量、反演辅助参数等多源信息,难以捕捉污染物生成和传输的非线性关系,因此填补精度有限。
二、研究方法
本研究采用基于随机森林模型(Random Forest)的回归填补方法。具体而言,首先将云筛后的数据集进行整理,将目标变量(如HCHO柱浓度)作为待预测对象,其他可用变量(如温度、风速等)作为特征。然后,对每一个时间点的格点数据进行分类:对于目标变量缺失的格点,提取其对应的特征值作为预测输入;对于非缺失格点,则作为训练数据,训练随机森林模型,学习特征与目标变量之间的非线性映射关系。训练完成后,对缺失格点进行预测,将结果填补回原数据集中,从而实现对缺失值的空间补全。该方法不仅保持了原始空间结构,同时充分利用了多变量信息,提高了填补精度和可靠性,相较于传统方法在高云覆盖或复杂地形区域效果更佳。
三、研究结果
一是随机森林模型的表现:模型在训练集上的拟合效果较好,并在测试集上表现出较为稳定的预测能力。具体评价指标包括决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE),均显示模型具有较高的准确性(图1)。这表明随机森林模型能够有效捕捉HCHO柱浓度数据的非线性特征及变量间的复杂关系,从而为缺失值的合理填补提供可靠依据。

图 1 随机森林模型表现
二是经过随机森林模型填补后的 HCHO 柱浓度数据与原有观测值在空间和时间分布上保持较好一致性(图2)。填补后的数据不仅保留了原始数据的变化趋势,还有效减少了因缺失值引入的不确定性。随机森林模型能够可靠地重建缺失值,从而为后续分析提供完整、可用的数据集。

图 2 填补前后对比
