海洋气象学报  2025, Vol. 45 Issue (3): 18-29  DOI: 10.19513/j.cnki.hyqxxb.20250117002
0

引用本文  

吴科娟, 张苏平, 李昕蓓, 等. 基于机器学习的西北太平洋海雾预报模型研究[J]. 海洋气象学报, 2025, 45(3): 18-29. DOI: 10.19513/j.cnki.hyqxxb.20250117002.
WU Kejuan, ZHANG Suping, LI Xinbei, et al. Research on sea fog prediction model over Northwest Pacific based on machine learning[J]. Journal of Marine Meteorology, 2025, 45(3): 18-29. DOI: 10.19513/j.cnki.hyqxxb.20250117002. (in Chinese)

基金项目

国家重点研发计划项目(2021YFC3101604)

作者简介

吴科娟,wkjouc@163.com.

通信作者

张苏平,zsping@ouc.edu.cn.

文章历史

收稿日期:2025-01-17
修订日期:2025-03-19
基于机器学习的西北太平洋海雾预报模型研究
吴科娟1 , 张苏平1 , 李昕蓓1 , 衣立1,2     
1. 中国海洋大学海洋与大气学院,山东 青岛 266100;
2. 中国海洋大学深海圈层与地球系统前沿科学中心,山东 青岛 266100
摘要:西北太平洋是全球海雾频率最高的海域之一,也是海上航运的主要通道所在,目前尚无海雾预报产品,研究该区域海雾发生的特征及其预报具有重要意义。本研究基于2013—2023年国际海洋大气综合数据集(International Comprehensive Ocean-Atmosphere Data Set,ICOADS)和ERA5再分析数据,结合机器学习方法,构建西北太平洋海雾预报模型。通过计算互信息(mutual information,MI)值,筛选出与海雾发生密切相关的12个关键因子,包括海面温度(sea surface temperature,SST;以下简称“海温”)、相对湿度、海温露点差(tSST-td)和经纬度信息等。为了解决有雾与无雾数据样本不平衡问题,采用重采样技术,并比较不同采样方法对模型性能的影响。结果表明,加入经纬度作为因子并对数据过采样处理后,模型性能显著提升,其中极致梯度提升树(eXtreme Gradient Boosting,XGBoost)TS评分(threat score)最高。模型的特征重要性分析表明,海温露点差和相对湿度是海雾模型中的核心因子。在对比机器学习模型中,XGBoost模型表现最佳,其次是卷积神经网络(convolutional neural network,CNN)和支持向量机(support vector machine,SVM),二者TS评分均超过0.3。在个例表现上,XGBoost模型表现更好,与雾区范围的吻合度最高。研究可为大洋上空的海雾监测和预报提供参考。
关键词西北太平洋    海雾预报    机器学习    重采样    
Research on sea fog prediction model over Northwest Pacific based on machine learning
WU Kejuan1 , ZHANG Suping1 , LI Xinbei1 , YI Li1,2     
1. College of Oceanic and Atmospheric Sciences, Ocean University of China, Qingdao 266100, China;
2. Frontiers Science Center for Deep Ocean Multispheres and Earth System, Ocean University of China, Qingdao 266100, China
Abstract: The Northwest Pacific is one of the areas with the highest sea fog frequency globally and serves as a major shipping route. Currently, there are no dedicated sea fog prediction products for this region. Therefore, studying the characteristics and prediction of the sea fog in this area is crucial. Based on the data from International Comprehensive Ocean-Atmosphere Data Set (ICOADS) and ERA5 data from 2013 to 2023, this study analyzes the distribution characteristics of the sea fog over Northwest Pacific and develops a sea fog prediction model using the machine learning method. By calculating mutual information (MI) values, we identify 12 key factors closely related to the occurrence of sea fog, including sea surface temperature (SST), relative humidity, difference between SST and dew point temperature (tSST-td) and geographical coordinates. To address the class imbalance between fog and non-fog samples, we apply resampling techniques and assess the impacts of various sampling strategies on the model performance. The results indicate that adding geographical information as factors and applying oversampling significantly improve the model performance, and the eXtreme Gradient Boosting (XGBoost) model shows the highest threat score. The feature importance analysis indicates that the difference between SST and dew point temperature and relative humidity serve as the core factors in the sea fog prediction model. Among comparative models, the XGBoost model achieves the best overall performance, followed by the convolutional neural network (CNN) and support vector machine (SVM), and both CNN and SVM achieve a threat score above 0.3. Case studies further confirm that the XGBoost model shows the best results, demonstrating the highest agreement with the observed fog coverage. This study reveals the complexities of sea fog formation over Northwest Pacific and provides a scientific basis for sea fog prediction over open ocean areas.
Key words: Northwest Pacific    sea fog prediction    machine learning    resampling    
0 引言

海雾指受海洋影响,海上大气水平能见度小于1 km的天气现象[1],对海上安全和经济活动有重要影响。据统计,全球32%的海上事故发生在浓雾中,超过80%的海损事件与雾有关[2]。雾造成的经济损失和人员伤亡与龙卷等极端天气造成的损失相当[3]。随着人类海上活动的日益增多,准确的海雾预报变得尤为重要。

西北太平洋是全球海雾发生最频繁、影响范围最广的海域之一,尤其在夏季,雾频可高达60%[4]。该海域是跨太平洋航运的重要通道,也是东亚通往北极的重要水路。然而,目前关于海雾的预报和研究多集中在近海区域,西北太平洋这一海域的预报研究远不能满足社会需求[5]

海雾的生成与消散受多种因素影响,包括热力、动力、水汽和大气层结稳定性等[6-9]。由于海雾过程的复杂性、非线性特征以及稀少的观测资料,大洋上空海雾的准确预报仍然面临诸多挑战[10]

前人研究[11-13]对近海海雾的预报因子进行探讨。例如,在中国南部沿海引入近地层温差因子后,模式输出统计(model output statistics,MOS)预报海雾的准确率和评分指标提高[14]。山东半岛南部沿海850 hPa风向在决策树海雾模型中起关键作用[15]。在黄渤海区域,选取相对湿度、风速、风向、2 m温度露点差、温度、逆温、海面温度(sea surface temperature,SST;以下简称“海温”)和海气温差作为预报因子,其模型的TS评分(threat score)为0.29[16]。以上研究为大洋上空海雾预报提供重要参考,但这些因子在西北太平洋的适用性及预报因子组合仍需进一步研究。

近年来,海雾数值预报方法在近海预报中取得了进展[17-21],包括改进物理方案和发展集合预报,然而,高精度数值模式所需的大量计算资源以及初始条件和参数化方案的不确定性[21],仍制约海雾预报能力。机器学习模型以其高效性和灵活性,逐渐成为海雾预报研究的热点。决策树(decision tree,DT)[13, 15, 22]、随机森林[23]、支持向量机(support vector machine,SVM)[24-25]和神经网络[23, 26-29]等模型在近海海雾预报中表现出良好的效果。但这些模型的性能依赖于特征工程,且选取的预报因子与海雾形成的相关程度和强度因地而异[30],导致模型的泛化能力有限。此外,模型物理可解释性薄弱及决策过程透明度不足[31],亟需通过特征重要性解析主导模型预报的关键因子。

此文旨在探究西北太平洋海雾预报的关键影响因子,并基于这些因子构建有效的海雾预报模型。针对雾类别与无雾类别的数据不平衡问题,使用重采样方法优化数据分布,并比较多种重采样方法在DT、支持向量机SVM、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)和卷积神经网络(convolutional neural network,CNN)模型中的海雾预报效果,以期为西北太平洋海雾预报技术的提升提供科学依据和重要参考。

1 数据和方法 1.1 数据

此研究采用多个数据来源,以最大可能保证海雾数据的准确性。使用了国际海洋大气综合数据集(International Comprehensive Ocean-Atmosphere Data Set,ICOADS),这是目前较为完整、权威的海上观测数据集。该数据集对“现在天气(present weather)”进行编码,其中海雾编码范围为40~49,涵盖了雾、观测前雾变薄、观测前雾变厚等情况[32]。能见度编码范围为90~99,其中90~94表示能见度小于1 km,标记为海雾(标签为1);而95~99表示能见度大于1 km,标记为非海雾(标签为0)。

使用欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts,ECMWF)第五代大气再分析数据集(ERA5),该数据集提供逐小时、水平分辨率为0.25°×0.25°的气象变量场[33],包括气温、2 m露点温度、海面气压、相对湿度、云水含量、U风和V风分量。特别是对于广阔的海域,ERA5数据为海雾发生的气象条件分析提供了基础数据。通过ICOADS与ERA5数据集最临近时空的数据结合,构建出西北太平洋海雾数据集。

利用日本新一代静止气象卫星葵花8号(Himawari-8)的可见光数据,该卫星搭载了先进的成像仪(Advanced Himawari Imager,AHI),能够实现每10 min一次的高时间分辨率对地观测[34],文中采用Himawari-8卫星数据的1(蓝色)、2(绿色)和3(红色)波段生成RGB合成云图,以验证模型在海雾个例中的表现。

使用2013—2021年的ICOADS观测数据标记海雾的有无,研究区域的经纬度范围设为130°~170°E、30°~60°N,该海域为海雾多发区[4]。为了比较大洋上空与近海的海雾影响因子特征,选取中国近海海域(100°~130°E,10°~50°N)作对比。

1.2 方法 1.2.1 数据处理方法

为避免特征量过多导致模型训练困难和过拟合,采用互信息(mutual information,MI)方法筛选海雾预报模型的输入变量。互信息是一种非线性关系的统计方法,量化了一个变量中包含的关于另一个变量的信息量,有效避免了仅考虑线性关系的局限性[35]。互信息值越大,表示该特征与目标变量(海雾发生)的信息越多,公式如下。

$ I(X ; Y)=\sum\limits_{x \in X} \sum\limits_{y \in Y} P(x, y) \log \left(\frac{P(x, y)}{P(x) P(y)}\right) $ (1)

式中:X表示输入的特征因子(例如相对湿度等因子),Y表示目标变量(海雾是否发生),P(xy)表示XY的联合概率分布,P(x)和P(y)分别表示XY的边缘概率分布,当XY完全独立则P(xy)=P(x)P(y),I(XY)=0。

针对数据集中非海雾样本远多于海雾样本的不平衡问题,文中采取欠采样和过采样两类数据平衡方法。具体而言,使用随机欠采样(random under sampler,RUS)减少无雾类别数量,采样边界合成少数类过采样技术(borderline synthetic minority over sampling technique,BSMOTE)和自适应采样技术(adaptive synthetic sampling approach,简记为“ADASYN”)[36],增加海雾样本。其中RUS方法,直接通过删除多数样本来平衡数据分布,而BSMOTE和ADASYN属于过采样方法,通过在特征空间合成新样本实现对海雾样本的增加。此外,为提高数据质量进行了数据清洗、异常值处理和数据标准化处理。

1.2.2 机器学习方法

采用4种经典机器学习方法,包括DT、SVM、XGBoost和CNN。DT通过递归数据划分机制构建树状拓扑结构,用于分类或回归任务[37]。SVM通过找到最大间隔的最佳超平面来进行分类或回归任务,适用于小样本、非线性和高维数据分类[38]。XGBoost是一种基于梯度提升框架的集成学习算法,通过迭代地训练弱分类器,并以梯度作为优化目标,构建出性能优异的模型[39]。CNN通过卷积层、池化层和全连接层的组合,能够有效提取数据的深层特征[40],广泛应用于时空数据分析和天气预报等任务。

1.2.3 评价方法

文中使用4种常用的判别指标评估模型的效果,包括击中率(probability of detection,POD)、空报率(false alarm rate,FAR)、TS评分[41](又称临界成功指数)及F1-Score(简记为“F1”)。这些指标均基于混淆矩阵计算,混淆矩阵如表 1所示。

表 1 海雾预测的混淆矩阵 Table 1 Confusion matrix for sea fog prediction

各判别指标的计算公式如下。

$ V_{\mathrm{POD}}=\frac{N_{\mathrm{TP}}}{N_{\mathrm{TP}}+N_{\mathrm{FN}}} $ (2)
$ V_{\mathrm{FAR}}=\frac{N_{\mathrm{FP}}}{N_{\mathrm{TP}}+N_{\mathrm{FP}}} $ (3)
$ V_{\mathrm{TS}}=\frac{N_{\mathrm{TP}}}{N_{\mathrm{TP}}+N_{\mathrm{FN}}+N_{\mathrm{FP}}} $ (4)
$ V_{\mathrm{F} 1}=2 \times \frac{V_{\mathrm{POD}} \times\left(1-V_{\mathrm{FAR}}\right)}{\left(V_{\mathrm{POD}}+1-V_{\mathrm{FAR}}\right)} $ (5)

其中:VPOD表示POD的值;VFAR表示FAR的值;VTS表示TS评分的值,是综合衡量模型的指标,TS评分越接近1表示模型效果越好;VF1表示F1的值;NTP表示正确预报的正例数,即预报和观测都发生的次数;NFN表示漏报的次数,即观测发生但预报未发生的次数;NFP表示空报的次数,即预报发生但观测未发生的次数。

2 西北太平洋海雾影响因子及其特征分析 2.1 与中国近海海雾特征的对比分析

为了解大洋与近海沿岸海雾特征的差异,文中首先对西北太平洋和中国近海海雾的主要特征进行分析。结果表明,两地海雾在某些特征上具有相似性,例如,有雾时两地海温露点差(tSST-td)(图 1a)均集中在-2~2 ℃,且在0 ℃附近频率最大,相对湿度(图 1b)均集中在90%以上,气海温差(ta-tSST)(图 1c)均以正值为主,风向(图 2)均以西南风为主,即以平流雾为主。

图 1 西北太平洋与中国近海有雾时影响因子概率密度分布对比 Fig.1 Comparison of probability density distribution of influencing factors when fog occurs over Northwest Pacific and China's coastal waters
图 2 中国近海和西北太平洋有海雾条件下风玫瑰图 Fig.2 Wind rose chart under fog condition over China's coastal waters and Northwest Pacific

然而,两地也存在差异。例如,西北太平洋成雾时的相对湿度(图 1b)主要分布在97%以上,而中国近海区域为92%以上。这种差异可通过寇拉理论(KÖhler theory)解释,气溶胶会降低成雾所需的饱和度[42],大洋上空气洁净,饱和条件要求更高;而近海区域受陆源排放影响,吸湿性气溶胶丰富,饱和条件要求较低。西北太平洋海雾发生时风速(图 2)较大[43],集中在3.4~10.8 m ·s-1(图 2b),且风速超过7 m ·s-1的频率达34.9%。而中国近海的有雾风速(图 2a)主要集中在1.6~5.5 m ·s-1,风速超过7 m ·s-1的频率仅为19.5%。此外,中国近海850 hPa与1 000 hPa温度差(t850-t1 000)(图 1d)主要分布在-5 ℃附近,而西北太平洋则偏向正值区,表明两地低层大气垂直热力结构的差异。同时,中国近海区域的海温(图 1e)和露点温度(图 1f)均高于西北太平洋。

尽管两地均以平流雾为主,但有雾时各影响因子的阈值区间存在显著差异。直接使用中国近海海雾预报因子和预报模型预报西北太平洋的海雾显然不合理。因此,需要进一步筛选适用于西北太平洋海雾的预报因子。

2.2 预报因子筛选

为筛选适用于西北太平洋海雾预报的关键影响因子,文中综合考虑了多种因素,基于可获得的基础数据,从海洋气象要素中筛选出与海雾发生密切相关的因子。通过多次计算MI值并取平均值,充分衡量变量与海雾的关系后,筛选出了MI值排名前12的关键因子(表 2)。相对湿度和海温露点差的MI值远大于其余因子,得分靠前的因子在一定程度上反映了海雾形成机制中的主要物理过程和因素。如气海温差为正时,暖湿空气在冷海面的冷却作用下,容易达到饱和,为海雾形成的有利条件。

表 2 特征因子的MI值 Table 2 MI values of feature factors

文中加入经纬度信息作为因子,发现纬度因子的MI值排名靠前,重要性位列第7,超过气温、比湿等常规因子。该结果与西北太平洋海雾高频区沿千岛群岛岛链呈带状分布[5]的特征相符。印证了纬度能够反映环境特性,如地形、风、温度和湿度等,从而间接表征出海雾的形成特性。

最终筛选出的12个因子包括1 000 hPa相对湿度、海温露点差、850 hPa与1 000 hPa温度差、1 000 hPa云液态水含量、气海温差、海温、纬度、1 000 hPa比湿、2 m气温、露点温度、10 m V风和经度。研究的目标变量为海雾的有无(二分类问题,1表示有雾,0表示无雾)。这些因子的选取不仅基于海雾形成的物理机制,而且具有统计显著性,为后续西北太平洋海雾预报模型的构建提供了客观依据。

2.3 因子特征分析

为进一步探究西北太平洋海雾影响因子的特征,对比分析了有雾和无雾条件下各因子的分布特征。如图 3所示,在无雾条件下,风向主要以西北风为主,风速较大,而有雾时主要以西南风为主。由图 4可以看出雾区主要集中在42°~48°N的千岛群岛附近。

图 3 西北太平洋无雾和有雾条件下风玫瑰图 Fig.3 Wind rose chart under non-fog and fog conditions over Northwest Pacific
图 4 有雾与无雾条件下各特征的箱线图 Fig.4 Box plot of various features under fog and non-fog conditions

有雾条件下,海温露点差、相对湿度等因子与无雾条件下显著不同(图 4),数据分布较为集中,例如,海温露点差为-0.96~0.52 ℃,相对湿度为93.80%~99.65%,海温为6.12~14.18 ℃,850 hPa与1 000 hPa的温度差为-3.45~1.51 ℃,气海温差为0.22~1.56 ℃,10 m V风风速为-0.15~5.60 m ·s-1。这反映了有雾时伴随着较为稳定的大气条件、较低的海温、较高的相对湿度、较高的云液态水含量以及正的气海温差,此环境条件下,水汽易于达到饱和,促使雾滴形成[9, 44-45]

相比之下,在无雾条件下,海温、气温和露点温度等因子数值分布集中在较高值区间。露点温度升高表征大气湿度增加,但伴随着环境温度升高引起的饱和水汽压增加的现象,对雾的生成不利。此外,海温往往偏高,海表无法对潜在的暖湿空气形成足够的冷却效应,阻碍了水汽冷凝。较大的垂直温差促进了湍流的发展,使得低层气体的垂直混合迅速加强,破坏了雾需要的稳定层结条件。以上分析表明在高海温、高气温和高露点温度时,层结不稳定,海雾较难形成。

综上所述,虽然西北太平洋与中国近海海雾均以平流雾为主,但海雾的特征有所差异,分析西北太平洋海雾的特征量,筛选出海温露点差、相对湿度等关键影响因子,同时考虑经纬度信息,为构建海雾预报模型提供了科学依据。

3 预报模型构建与结果分析 3.1 数据集划分与重采样

处理完异常数据后,观测数据中包含256 059个样本,其中海雾样本数为13 012,约占5.1%。数据经过标准化后,分为训练集和测试集。训练集包括2013年1月—2017年12月的数据,样本数为144 366,其中海雾样本数为8 480,约占6.2%。测试集为2018年1月—2022年12月和2023年的数据(不含2021年数据),共包括111 693个样本,其中海雾样本数为4 532,约占4.1%。雾样本占比极少,为了缓解雾样本与非雾样本不平衡的问题,对训练集数据进行重采样。在欠采样时,以有雾样本为基准,将无雾样本的数量减少至与有雾样本相同,即有雾和无雾样本数均为8 480;对训练集过采样后,海雾数据样本的分布表现为采用ADASYN采样后的海雾样本数增加至27 961,BSMOTE采样后海雾样本数增加至27 177,过采样后的海雾样本约为原来的3倍。

测试集则保留原始数据分布,这样在模型评估时能够更真实、客观地反映模型的性能。将2021年的数据单独作为个例验证的数据。

3.2 模型参数设置与训练

根据机器学习模型的特征,通过随机搜索确定最优基本参数,文中使用的4个机器学习模型的基本参数设置如表 3所示。CNN模型采用三层一维卷积网络(1D-CNN)作为主要特征提取模块,卷积核分别为(32,64,128),核大小为(4,3,2)。通过全局最大池化层显著减少特征量,同时降低参数复杂度。随后全连接层与输出层完成特征融合与分类。二分类输出通过Sigmoid激活函数生成的概率值判别样本分类。损失函数采用二元交叉熵,优化器使用Adam。为了防止模型在验证集上出现过拟合,设置了早停(early stopping)策略。早停策略的依据是验证损失函数是否持续减小,当验证集的损失在15个训练周期内未得到改善时,训练自动停止,并恢复到性能最佳时的模型权重。

表 3 4个机器学习模型参数配置表 Table 3 Model parameters of 4 machine learning models
3.3 结果分析 3.3.1 整体性能评估分析

基于筛选的关键因子,对比不同采样方法及加入经纬度信息对海雾模型性能的影响。测试集的评分指标结果如图 5所示。

图 5 采用自适应采样技术(A)、BSMOTE采样(B)、未采样原始数据(N)及欠采样方法(R)对CNN、DT、SVM和XGBoost等4种模型的性能指标评价结果 Fig.5 Performance metrics for 4 models (CNN, DT, SVM and XGBoost) using the sampling methods of adaptive sampling technique (A), BSMOTE sampling (B), original data without sampling (N) and under-sampling method (R)

XGBoost模型在未采样原始数据建模(未采样,简记为“N”)条件下的F1(图 5b)和TS评分(图 5d)分别为0.52和0.35,高于其他3个模型。然而,欠采样(RUS,简记为“R”)导致模型性能降低,可能与欠采样后的数据样本减少导致模型欠拟合有关。过采样(ADASYN简记为“A”,BSMOTE简记为“B”)后的模型性能有所提升,F1分数增加,TS评分值超过0.37。CNN模型在过采样后,F1和TS评分均有所增加,其中F1最高为0.54,TS评分从0.27增加至0.37。SVM模型和DT模型的POD(图 5a)较高,但由于FAR也较高,TS评分低于0.28。SVM模型的F1和TS评分高于DT模型。

加入经纬度信息后,模型的TS评分略有提升。例如,在A类过采样方法下,DT模型TS评分提升了3.7%,XGBoost模型提升了2.2%,SVM模型在B类过采样下提升了2.6%。然而,在原始数据建模情况下,加入经纬度信息反而使模型TS评分下降,这表明地理信息有效性依赖于样本分布的均衡性。

基于XGBoost模型的特征重要性分析(图 6)表明,数据重采样影响了模型的特征重要性分布。在原始数据建模结果(蓝色柱)中,相对湿度(重要性得分为0.361)和海温露点差(重要性得分为0.303)占据主导地位,二者共同表征了空气饱和状态对成雾的核心调控作用。重采样后(红色柱和粉色柱),海温露点差的重要性超越相对湿度成为首要因子,其物理机制可以理解为,当海温露点差接近或低于0 ℃时,海温与露点温度的趋近使得气温的微小下降即可触发饱和过程,为成雾的关键条件。此外,纬度和液态水含量因子在重采样下的特征重要性有所增加,这表明增加有雾样本的占比有助于模型关注到雾的更多特征因子。

图 6 不同采样方法下XGBoost的特征重要性排序对比 Fig.6 Comparison of XGBoost feature importance ranking under different sampling methods

模型运行效率显示,XGBoost模型和DT模型为毫秒级响应,CNN模型为秒级计算,而SVM模型耗时高达25~35 min,表明XGBoost模型和CNN模型在实际应用中兼具准确率与运算效率优势。

综上,对训练集进行过采样和添加经纬度信息能提升模型的预测性能,其中XGBoost模型的表现最佳。在重要性排序中,海温露点差和相对湿度的显著贡献表明其在海雾预报中的核心作用。

3.3.2 模型的应用

由于大洋上观测资料极度稀少,利用ICOADS观测数据确定有雾时段,结合Himawari-8卫星RGB合成图像(图 7),对不同海雾预报模型的结果进行分析和评估。在卫星云图中,海雾表现为表面光滑且质地均匀的云层[46]。如图 7所示,2021年6月11日,在千岛群岛岛链和堪察加半岛南部附近海域(148°~165°E,43°~53°N)有明显的海雾存在,各模型的结果均能有效反映该区域雾的存在。

图 7 2021年6月11日00时(世界时)Himawari-8卫星RGB合成图与观测有雾点 Fig.7 RGB composite image of Himawari-8 satellite and observed fog locations at 00:00 UTC 11 June 2021

CNN模型(图 8a)在日本附近捕获到海雾的存在,雾区范围较小,SVM模型(图 8b)虽然雾区范围比CNN模型大,但在千岛群岛岛链附近的海雾并未全部捕捉,可能是由于模型在捕捉细节时的过度拟合或局部特征提取有偏差。XGBoost模型(图 8c)表现较好,模型输出的雾区与观测数据点和卫星云图较为符合。而DT模型(图 8d)的雾区范围较大,这与模型在测试集表现的POD和FAR较高符合。这可能源于其在决策过程中较为宽松的分界标准,导致预测结果的过度扩展,进而扩大了雾区的范围。

图 8 2021年6月11日00时(世界时)4个模型输出的海雾结果 Fig.8 Sea fog results from 4 models at 00:00 UTC 11 June 2021

这些模型能够有效描绘海雾的空间分布情况,为海雾的监测和预报提供了有力支持,然而,模型间的表现差异揭示了不同算法在细节捕捉及泛化能力方面的特点。XGBoost模型具有较高的准确性和鲁棒性,显示在实际应用中的优势,能够为海雾实时预报提供有效参考。

4 结论与讨论

基于2013—2023年ICOADS和ERA5再分析数据,结合机器学习方法构建了西北太平洋开阔海域的海雾预报模型。通过互信息值分析筛选出与海雾发生密切相关的关键因子。在模型中,加入经纬度信息,并采用重采样方法优化数据样本分布。在此基础上,比较了4种机器学习模型在海雾预报中的性能,得到以下初步结论。

(1) 海雾影响因子分析:与中国近海相比,西北太平洋在有雾时850 hPa与1 000 hPa温度差多为正值,相对湿度多在97%以上。通过互信息值筛选的12个海雾影响关键因子中,海温露点差和相对湿度是最重要的影响因子。

(2) 经纬度信息及重采样方法的影响:加入经纬度后,模型的TS评分有所提升,表明经纬度在西北太平洋海雾预报中具有指示作用。经重采样处理后,模型的性能明显提高,同时特征重要性排序发生了变化,其中海温露点差超越相对湿度成为首要影响因子,且二者重要性显著高于其他特征。

(3) 机器学习模型性能比较:测试集结果表明,XGBoost的综合效果最佳,其TS评分(0.37)高于SVM、DT和CNN。在个例表现上,XGBoost的效果较好,捕捉雾区的能力更佳,表明在海雾形成的非线性关系方面具有较强优势。CNN模型可能由于严格的边界识别导致雾区的范围偏小,而DT模型可能因过拟合特征产生雾区的高估。

此研究揭示了西北太平洋海雾预报模型的关键影响因子,特别是海温露点差和相对湿度作为核心因子,为开阔大洋的海雾预报提供了新的参考依据。同时,展示了机器学习模型特别是XGBoost模型在海雾预报方面的应用潜力。然而,个例验证中主要依赖卫星云图,有待大洋上空卫星反演海雾技术的进步,以更好地考察模型的预报能力和稳定性。未来可以结合多源遥感数据和改进模型结构(如引入时空特征建模及注意力机制)来提升模型捕捉海雾动态变化的能力。

参考文献
[1]
王彬华. 海雾[M]. 北京: 海洋出版社, 1983.
[2]
TRÉMANT M. La prévision du brouillard en mer, meteorologie maritime et activités oceanographiques connexes rapport[R]. Geneva, Switzerland: World Meteorological Organization (WMO), 1987.
[3]
GULTEPE I, TARDIF R, MICHAELIDES S C, et al. Fog research: a review of past achievements and future perspectives[J]. Pure Appl Geophys, 2007, 164(6): 1121-1159.
[4]
张苏平, 衣立, 高山红. 海雾导论[M]. 北京: 气象出版社, 2024: 65-68.
[5]
ZHANG S P, CHEN Y, LONG J C, et al. Interannual variability of sea fog frequency in the Northwestern Pacific in July[J]. Atmos Res, 2015, 151: 189-199. DOI:10.1016/j.atmosres.2014.04.004
[6]
ROACH W T. Back to basics: fog: part 3: the formation and dissipation of sea fog[J]. Weather, 1995, 50(3): 80-84. DOI:10.1002/j.1477-8696.1995.tb05510.x
[7]
LEWIS J M, KORAČIN D, REDMOND K T. Sea fog research in the United Kingdom and United States: a historical essay including outlook[J]. Bull Amer Meteor Soc, 2004, 85(3): 395-408. DOI:10.1175/BAMS-85-3-395
[8]
ZHANG S P, XIE S P, LIU Q Y, et al. Seasonal variations of Yellow Sea fog: observations and mechanisms[J]. J Climate, 2009, 22(24): 6758-6772. DOI:10.1175/2009JCLI2806.1
[9]
任兆鹏, 张苏平. 黄海夏季海雾的边界层结构特征及其与春季海雾的对比[J]. 中国海洋大学学报(自然科学版), 2011, 41(5): 23-30.
[10]
KORAČIN D, BUSINGER J A, DORMAN C E, et al. Formation, evolution, and dissipation of coastal sea fog[J]. Bound-Layer Meteor, 2005, 117(3): 447-478. DOI:10.1007/s10546-005-2772-5
[11]
史达伟, 张静, 曹庆, 等. 基于决策树算法的海州湾地区海雾预测[J]. 气象科学, 2022, 42(1): 136-142.
[12]
ZHOU B B, DU J. Fog prediction from a multimodel mesoscale ensemble prediction system[J]. Wea Forecasting, 2010, 25(1): 303-322. DOI:10.1175/2009WAF2222289.1
[13]
LINDNER B L, MOHLIN P J, CAULDER A C, et al. Development and testing of a decision tree for the forecasting of sea fog along the Georgia and South Carolina coast[J]. J Operational Meteor, 2018, 6(5): 47-58. DOI:10.15191/nwajom.2018.0605
[14]
黄辉军, 黄健, 刘春霞, 等. 用近地层温差因子改进广东沿海海雾区域预报[J]. 热带气象学报, 2013, 29(6): 907-914.
[15]
高荣珍, 李欣, 任兆鹏, 等. 青岛沿海海雾决策树预报模型研究[J]. 海洋预报, 2016, 33(4): 80-87.
[16]
杨正龙, 张恒德, 胡海川, 等. 基于动力统计方法的黄渤海海雾预报模型构建与应用[J]. 气象与环境科学, 2023, 46(5): 96-103.
[17]
高山红, 齐伊玲, 张守宝, 等. 利用循环3DVAR改进黄海海雾数值模拟初始场Ⅰ: WRF数值试验[J]. 中国海洋大学学报(自然科学版), 2010, 40(10): 1-9.
[18]
史得道, 吴振玲, 高山红, 等. 海雾预报研究综述[J]. 气象科技进展, 2016, 6(2): 49-55.
[19]
GAO X Y, GAO S H, YANG Y. A comparison between 3DVAR and EnKF for data assimilation effects on the Yellow Sea fog forecast[J]. Atmosphere, 2018, 9(9): 346. DOI:10.3390/atmos9090346
[20]
涂石飞, 韩利国, 徐峰, 等. 华南海雾研究进展[J]. 海洋气象学报, 2019, 39(4): 12-20. DOI:10.19513/j.cnki.issn2096-3599.2019.04.002
[21]
HUANG B, ZHANG J, CAO Y N, et al. Improvements of sea fog forecasting based on CMA-TYM[J]. Front Earth Sci, 2022, 10: 854438. DOI:10.3389/feart.2022.854438
[22]
黄健, 黄辉军, 黄敏辉, 等. 广东沿岸海雾决策树预报模型[J]. 应用气象学报, 2011, 22(1): 107-114. DOI:10.3969/j.issn.1001-7313.2011.01.011
[23]
KIM J, KIM S H, SEO H W, et al. Meteorological characteristics of fog events in Korean smart cities and machine learning based visibility estimation[J]. Atmos Res, 2022, 275: 106239. DOI:10.1016/j.atmosres.2022.106239
[24]
高松, 徐江玲, 刘桂艳, 等. 基于机器学习的青岛市区近岸海雾集成预报方法[J]. 海洋科学, 2021, 45(3): 33-42.
[25]
NEGISHI M, KUSAKA H. Development of statistical and machine learning models to predict the occurrence of radiation fog in Japan[J]. Meteor Appl, 2022, 29(2): e2048. DOI:10.1002/met.2048
[26]
王彦磊, 曹炳伟, 黄兵, 等. 基于神经网络的单站雾预报试验[J]. 应用气象学报, 2010, 21(1): 110-114. DOI:10.3969/j.issn.1001-7313.2010.01.015
[27]
徐志鹏, 张苏平, 衣立, 等. 青岛近岸能见度逐小时分级预报模型初探[J]. 海洋湖沼通报, 2018, 40(1): 9-17.
[28]
李昕蓓, 张苏平, 衣立, 等. 基于循环神经网络的单站能见度短临预报试验[J]. 海洋气象学报, 2019, 39(2): 76-83.
[29]
PARK J, LEE Y J, JO Y, et al. Spatio-temporal network for sea fog forecasting[J]. Sustainability, 2022, 14(23): 16163. DOI:10.3390/su142316163
[30]
KORAČIN D, DORMAN C E, LEWIS J M, et al. Marine fog: a review[J]. Atmos Res, 2014, 143: 142-175. DOI:10.1016/j.atmosres.2013.12.012
[31]
DU M N, LIU N H, HU X. Techniques for interpretable machine learning[J]. Commun ACM, 2019, 63(1): 68-77. DOI:10.1145/3359786
[32]
WOODRUFF S D, SLUTZ R J, JENNE R L, et al. A comprehensive ocean-atmosphere data set[J]. Bull Amer Meteor Soc, 1987, 68(10): 1239-1250. DOI:10.1175/1520-0477(1987)068<1239:ACOADS>2.0.CO;2
[33]
HERSBACH H, BELL B, BERRISFORD P, et al. The ERA5 global reanalysis[J]. Quart J Royal Meteor Soc, 2020, 146(730): 1999-2049. DOI:10.1002/qj.3803
[34]
BESSHO K, DATE K J, HAYASHI M, et al. An introduction to Himawari-8/9: Japan's new-generation geostationary meteorological satellites[J]. J Meteor Soc Japan, 2016, 94(2): 151-183. DOI:10.2151/jmsj.2016-009
[35]
LI W D, GAO X, HAO Z H, et al. Using deep learning for precipitation forecasting based on spatio-temporal information: a case study[J]. Climate Dyn, 2022, 58(1): 443-457.
[36]
HE H B, BAI Y, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning[C]//2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). Hong Kong, China: IEEE, 2008: 1322-1328.
[37]
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
[38]
HEARST M A, DUMAIS S T, OSUNA E, et al. Support vector machines[J]. IEEE Intell Syst Appl, 1998, 13(4): 18-28. DOI:10.1109/5254.708428
[39]
CHEN T Q, GUESTRIN C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA: Association for Computing Machinery, 2016: 785-794.
[40]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Commun ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386
[41]
黄彬, 高荣珍, 时晓曚. GRAPES-TYM模式对我国东部近海海雾预报性能评估[J]. 气象科技, 2022, 50(6): 783-792.
[42]
PRUPPACHER H R, KLETT J D, WANG P K. Microphysics of clouds and precipitation[J]. Aerosol Sci Tech, 1998, 28(4): 381-382. DOI:10.1080/02786829808965531
[43]
张苏平, 张欣, 时晓曚. 亲潮延伸体海区一次海雾过程的观测研究[J]. 海洋气象学报, 2022, 42(1): 1-11.
[44]
黄彬, 王皘, 陆雪, 等. 黄渤海一次持续性大雾过程的边界层特征及生消机理分析[J]. 气象, 2014, 40(11): 1324-1337. DOI:10.7519/j.issn.1000-0526.2014.11.005
[45]
傅方奇, 杜雪婷, 王健捷, 等. 2022年春季浙江一次持续性海雾过程的特征及成因[J]. 海洋气象学报, 2024, 44(3): 78-86. DOI:10.19513/j.cnki.hyqxxb.20230131001
[46]
肖艳芳, 张杰, 崔廷伟, 等. 海雾卫星遥感监测研究进展[J]. 海洋科学, 2017, 41(12): 146-154. DOI:10.11759/hykx20170523001