基于自注意力和稠密卷积改进ConvLSTM的雷达回波外推方法

引用本文

杨晓钰, 牛雪梅, 祁凯. 基于自注意力和稠密卷积改进ConvLSTM的雷达回波外推方法[J]. 海洋气象学报, 2025, 45(3): 107-116. DOI: 10.19513/j.cnki.hyqxxb.20240514001.

YANG Xiaoyu, NIU Xuemei, QI Kai. Radar echo extrapolation method based on self-attention and dense convolution improved ConvLSTM[J]. Journal of Marine Meteorology, 2025, 45(3): 107-116. DOI: 10.19513/j.cnki.hyqxxb.20240514001. (in Chinese)

基金项目

安徽省自然科学基金江淮气象联合基金项目(2208085UQ05)；安徽省气象局预报员专项(KY202204)

作者简介

杨晓钰，yangxiaoyu3104@163.com.

文章历史

收稿日期：2024-05-14
修订日期：2024-07-21

当期目次 中英文摘要 全文图表 PDF

基于自注意力和稠密卷积改进ConvLSTM的雷达回波外推方法

杨晓钰 , 牛雪梅 , 祁凯

阜阳市气象局，安徽阜阳 236000

收稿日期：2024-05-14；修订日期：2024-07-21

基金项目：安徽省自然科学基金江淮气象联合基金项目(2208085UQ05)；安徽省气象局预报员专项(KY202204)

作者简介：杨晓钰，yangxiaoyu3104@163.com.

摘要：针对现有雷达回波外推模型存在长时序回波外推模糊失真和强回波预测准确率较低等问题，利用安徽2016年5—9月的多普勒雷达组合反射率拼图数据，设计了一种基于自注意力和稠密卷积改进卷积长短期记忆(convolutional long short-term memory，ConvLSTM)网络的雷达回波外推方法。模型以ConvLSTM为基础，在每个单元结构以及编解码器中间融入自注意力机制，强化模型对于特征长时空间依赖的提取能力，同时用稠密连接卷积代替普通卷积，提高模型的特征重用能力。实验利用过去1 h雷达回波图像预测未来2 h雷达回波图像，并与改进前的ConvLSTM进行对比证明了提出的模型能够提高雷达回波外推的准确率。

关键词：雷达回波外推 ConvLSTM网络自注意力机制稠密卷积

Radar echo extrapolation method based on self-attention and dense convolution improved ConvLSTM

YANG Xiaoyu , NIU Xuemei , QI Kai

Fuyang Meteorological Service, Fuyang 236000, China

Abstract: To address the problems of fuzzy distortion in long-term echoes and low accuracy in predicting strong echoes in existing radar echo extrapolation models, this paper designs a radar echo extrapolation method based on self-attention and dense convolution improved convolutional long short-term memory (ConvLSTM) network by using the composite reflectivity mosaic image of Doppler radar data in Anhui from May to September 2016. Based on ConvLSTM, the model incorporates self-attention mechanism into each cell and Encoder-Decoder to enhance the ability of extracting features with long-term spatial dependence. Meanwhile, the model uses dense convolution instead of common convolution to improve the feature reuse ability. The experiment uses the past 1-h radar echo image to predict the future 2-h radar echo image, and compares the resluts with the ConvLSTM before the improvement, proving that the proposed model can improve the accuracy of radar echo extrapolation.

Key words: radar echo extrapolation ConvLSTM network self-attention mechanism dense convolution

0 引言

短临预报是指0~2 h的临近预报和0~12 h的短时预报，集中关注强降水、大风、冰雹等灾害性天气^[1]。鉴于天气对社会生活与经济活动的重大影响，特别是紧急灾害性天气和即时应对措施的需求，短临天气预报的时效性和精确度成为主要研究方向。目前，短临预报主要使用雷达回波外推的方法来进行预测。雷达回波外推利用过去连续时间内采集的雷达图像来预测未来一段时间的雷达回波图像，可以直观显示出站点区域一段时间内天气系统的时空演变。

传统的雷达回波外推方法有质心跟踪法、交叉相关外推法和光流法。质心跟踪法对雷达回波在相邻时刻作线性最小二乘拟合^[2-3]。交叉相关外推法通过计算连续雷达图像间的最佳匹配区域，确定移动速度和方向，再利用后向轨迹法外推^[4]。光流法利用图像序列中像素在时间域上的变化以及帧间相关性来计算对应关系和运动信息^[5-6]。然而光流法的记忆能力在长时间序列中受限，导致在长期预测中效果下降。此外，这些方法在预测复杂天气变化方面均显示出一定的局限性。

随着人工智能和计算机视觉技术的进步，基于深度学习的雷达回波外推成为研究前沿。Shi等^[7]通过将LSTM(long short-term memory)中的Hadamard乘积替换为卷积运算，创新性地提出了卷积长短期记忆(convolutional LSTM，ConvLSTM)网络，显著提升了对图像空间结构特征的提取能力。王友宁等^[8]在ConvLSTM的堆叠单元之间插入了残差连接，使得模型在网络层次更深的同时保留原有小模型的学习能力。Wang等^[9]针对ConvLSTM在信息传递上的局限性，提出了PredRNN(predictive recurrent neural network)模型，该模型通过垂直信息传递机制，优化了深层网络的信息流。刘瑞华等^[10]在PredRNN基础上结合Transformer的思想，引入混合注意力特征提取模块融合粗粒度和细粒度的图像子块，有效提升了模型对不同粒度图像特征的提取能力。庞林^[11]通过引入特殊注意力模块的编解码器(Encoder-Decoder)架构，解决解码压缩过程信息丢失和解码提取信息不平衡的问题。程勇等^[12]提出一种AFR-LSTM (spatiotemporal LSTM model with attention fusion and recall)网络，该网络融合通道注意力和时空注意力机制来获得更好的长期时空表示，减少信息在传递过程中的丢失。一部分研究者尝试使用卷积神经网络直接对雷达回波外推问题进行建模。Liang等^[13]提出了一种基于降水临近预报的雷达数据库U-Net模型，模型包括上采样、下采样和跳跃连接等3部分，并采用了加权损失函数来解决雷达反射率值的数据分布不均匀问题。李建柱等^[14]通过比较U-Net及其变体模型，验证了基于U-Net的模型在雷达临近预报中的高效性。然而U-Net模型在全局信息整合、冗余处理和感受野限制方面仍存在不足。

在短临预报领域，气象业务人员依赖雷达回波强度变化以识别强对流天气。然而，现有模型在处理包含大量要素点的雷达回波时，对高强度回波的特征提取能力不足，导致预测的不准确和失真问题。此外，时序预测模型在长序列预测中常面临记忆能力不足的问题。针对这些问题，文中提出一种基于自注意力和稠密卷积的雷达回波外推方法。首先，在每个时间步引入自注意力机制，通过计算位置间的相似度分数，实现特征的加权融合，以增强对时间流中注意力特征的记录。其次，在编解码器之间加入自注意力块，强化深层模型和时间步之间的特征关注度。最后，通过将卷积层替换为稠密卷积层，利用特征的重复连接，显著提升网络的空间特征提取能力。

1 模型 1.1 ConvLSTM模型

ConvLSTM模型融合了卷积神经网络和长短期记忆网络的优势，通过在LSTM中引入卷积操作，实现了对时间序列和图像空间特征的双重提取。每个ConvLSTM模块输入当前时间步的数据，利用卷积在图像上进行特征提取操作，再将提取后的特征通过输入门、遗忘门和输出门，最后输出单元的隐藏状态。ConvLSTM模块的原理公式如下。

$ \boldsymbol{i}_t=\sigma\left(\boldsymbol{W}_{x i} * \boldsymbol{X}_t+\boldsymbol{W}_{h i} * \boldsymbol{H}_{t-1}+\boldsymbol{W}_{c i} \boldsymbol{C}_{t-1}+\boldsymbol{b}_i\right) $

(1)

$ \boldsymbol{f}_t=\sigma\left(\boldsymbol{W}_{x f} * \boldsymbol{X}_t+\boldsymbol{W}_{h f} * \boldsymbol{H}_{t-1}+\boldsymbol{W}_{c f} \boldsymbol{C}_{t-1}+\boldsymbol{b}_f\right) $

(2)

$ \boldsymbol{C}_t=\boldsymbol{f}_t \boldsymbol{C}_{t-1}+\boldsymbol{i}_t \tanh \left(\boldsymbol{W}_{x c} * \boldsymbol{X}_t+\boldsymbol{W}_{h c} * \boldsymbol{H}_{t-1}+\boldsymbol{b}_c\right) $

(3)

$ \boldsymbol{o}_t=\sigma\left(\boldsymbol{W}_{x o} * \boldsymbol{X}_t+\boldsymbol{W}_{h o} * \boldsymbol{H}_{t-1}+\boldsymbol{W}_{c o} \boldsymbol{C}_t+\boldsymbol{b}_o\right) $

(4)

$ \boldsymbol{H}_t=\boldsymbol{o}_t \tanh \left(\boldsymbol{C}_t\right) $

(5)

式中：下标t表示时间步数，X _t表示当前时间步的输入，表示 H_t－1上一时间步的隐藏状态，W和b分别表示相应的卷积核参数和偏置量，σ和tanh表示激活函数，$*$表示卷积操作。当层数大于1时，用 H _t代替X _t作为单元模块的特征输入。C_t表示当前时间步的输出状态，由遗忘门f_t和输入门i_t决定，可以控制当前时间步需要遗忘的信息。o_t通过输出门计算当前时间步和上一时间步的相关性并获得输出信息。ConvLSTM单元结构如图 1所示，其中W_ft、W_it、W_Ct、W_ot分别对应遗忘门、输入门、输出状态和输出门的参数矩阵。ConvLSTM结构继承了LSTM的门控机制，通过将一维的Hadamard乘积替换为二维卷积，有效保留了数据的空间特征，增强了模型在图像处理领域的适用性。

图 1 ConvLSTM单元结构图 Fig.1 Structure of ConvLSTM cell

多层ConvLSTM模型通过堆叠多个单元实现长时的时序预测，其水平方向上串联多个单元，垂直方向上增加单元的层数来加深网络的层次。同时，为了解决输入输出长度不一致问题，引入Encoder-Decoder结构^[15]。

ConvLSTM单元堆叠网络在时序预测方面具有潜力，但在处理雷达回波这类复杂且对长时预测精度和精细化预测要求极高的问题时，现有模型的表征能力需进一步提升。改进后的ConvLSTM模型应确保在保持高准确率的同时，能够精确预测不同强度回波的发展。

1.2 自注意力机制 1.2.1 自注意力模块

注意力机制最早提出用于文本序列数据的处理，是一种模仿人类选择性注意力的机制的计算方法，可以自动关注数据中更为重要的信息^[16]。自注意力(self-attention)机制是注意力机制的一种，能够减弱局部对外部信息的依赖，提高捕捉数据或者特征内部的相关性。文中采用SA-ConvLSTM(self-attention ConvLSTM)^[17]的结构作为网络的单元结构，如图 2所示，将自注意力机制融合进ConvLSTM以提高模型对强值回波区域的关注，并强化模型在长时序预测中的空间依赖能力。

图 2 带有自注意力机制的ConvLSTM单元结构图 Fig.2 Structure of ConvLSTM cell with self-attention mechanism

模块首先经过遗忘门、输入门和输出门计算后获得当前时间步隐藏状态 H _t，将 H _t经过卷积运算获得3个特征值Q_ht、K_ht和V_ht。其中，Q_ht和K_ht经过softmax计算和归一化得到 H _t的权重矩阵A_ht，如公式(6)—(7)，D_{K_ht}为特征K_ht的维度信息。然后将V_ht与权重矩阵A_ht作加权运算得 H _t的注意力加权特征Z_ht，如公式(8)。同时，模块引入一个记忆状态特征M_t，该特征类似输出状态C_t可以记忆过去时间步中的信息并继续传递，将M_t经过卷积后获得的K_mt与Q_ht经过softmax计算过去时间与当前时间步的相似度特征A_mt，然后A_mt与V_mt加权得Z_mt。最后通过公式(9)得到Z_ht和Z_mt的聚合特征Z_t。

$ \boldsymbol{e}_{h t}=\operatorname{softmax}\left(\frac{\boldsymbol{Q}_{h t} \boldsymbol{K}_{h t}^{\mathrm{T}}}{\sqrt{\boldsymbol{D}_{\boldsymbol{K}_{h t}}}}\right) $

(6)

$ \boldsymbol{A}_{h t}=\frac{\exp \boldsymbol{e}_{h t}}{\sum \exp \boldsymbol{e}_{h t}} $

(7)

$ \boldsymbol{Z}_{h t}=\boldsymbol{A}_{h t}\left(\boldsymbol{W}_{V_{h t}} \boldsymbol{V}_t\right) $

(8)

$ \boldsymbol{Z}_t=\boldsymbol{W}_{Z_t}\left(\boldsymbol{Z}_{h t}+\boldsymbol{Z}_{m t}\right) $

(9)

此时，聚合特征Z_t既包含有当前时间步的注意力信息，又包含全局的注意力信息。再使用ConvLSTM中的门更新机制进行更新，公式如下。

$ \hat{\boldsymbol{i}}_t=\boldsymbol{\sigma}\left(\boldsymbol{W}_{z \hat{i}} * \boldsymbol{Z}_t+\boldsymbol{W}_{h \hat{i}} * \boldsymbol{H}_t+\boldsymbol{b}_{\hat{i}}\right) $

(10)

$ \hat{\boldsymbol{g}}_t=\tanh \left(\boldsymbol{W}_{z \hat{g}} * \boldsymbol{Z}_t+\boldsymbol{W}_{h \hat{g}} * \boldsymbol{H}_t+\boldsymbol{b}_{\hat{g}}\right) $

(11)

$ \boldsymbol{M}_t=\left(1-\hat{\boldsymbol{i}}_t\right) \boldsymbol{M}_{t-1}+\hat{\boldsymbol{i}}_t \hat{\boldsymbol{g}}_t $

(12)

$ \hat{\boldsymbol{o}}_t=\sigma\left(\boldsymbol{W}_{z \hat{o}} * \boldsymbol{Z}_t+\boldsymbol{W}_{h \hat{o}} * \boldsymbol{H}_t+\boldsymbol{b}_{\hat{o}}\right) $

(13)

$ \boldsymbol{H}_t=\hat{\boldsymbol{o}}_t \boldsymbol{M}_t $

(14)

式中：t表示时间步数，H _t表示当前时间步的隐藏状态，W和b分别表示相应的卷积核参数和偏置量，σ和tanh表示激活函数。$\hat{\boldsymbol{i}}_t, \hat{\boldsymbol{g}}_t, \hat{\boldsymbol{o}}_t$表示更新后的输入门、遗忘门和输出门。

1.2.2 局部自注意力

由于多层网络的模块相互堆叠，使得深层的模块能够提取到更加重要的特征，所以深层网络的信息更具有重要性。文中在编码器和解码器之间再加入一个局部自注意力块(local self-attention)，用来提取深层的相邻2个隐藏状态之间的局部注意力信息，强化相邻时间步之间的重要性关注，得到基于单个时间步的强化注意力特征，公式如下。

$ \boldsymbol{e}_{h_t^L}=\operatorname{softmax}\left(\frac{\boldsymbol{Q}_{h_t^L} \boldsymbol{K}_{h_t^L}^{\mathrm{T}}}{\sqrt{\boldsymbol{D}_{\boldsymbol{K}_{h_t^L}}}}\right) $

(15)

$ \boldsymbol{A}_{h_t^L}=\frac{\exp \boldsymbol{e}_{h_t^L}}{\sum \exp \boldsymbol{e}_{h_t^L}} $

(16)

$ \boldsymbol{Z}_{h_t^L}=\boldsymbol{A}_{h_t^L}\left(\boldsymbol{W}_{V_{h_t^L}} \boldsymbol{V}_t^L\right) $

(17)

$ \boldsymbol{Z}_t^L=\boldsymbol{W}_{Z_t^L}\left(\boldsymbol{Z}_{h_t^L}+\boldsymbol{Z}_{h_{t-1}^L}\right) $

(18)

式中：$\boldsymbol{H}_t^L$表示第L层第t时刻的隐藏状态，$\boldsymbol{Q}_{h_t^L} 、\boldsymbol{K}_{h_t^L}$和$\boldsymbol{V}_{h_t^L}$表示第L层第t时刻的隐藏状态经过卷积运算获得的3个特征值。局部自注意力块将计算$\boldsymbol{H}_t^L$与$\boldsymbol{H}_{t-1}^L$之间的注意力，首先计算出$\boldsymbol{H}_t^L$基于本身的加权注意力特征$\boldsymbol{Z}_{h_t^L}$，如公式(15)—(17)；其次计算$\boldsymbol{H}_t^L$与$\boldsymbol{H}_{t-1}^L$的加权注意力特征作为新的深层隐藏状态$\boldsymbol{Z}_t^L$，如公式(18)；最后将$\boldsymbol{Z}_t^L$的集合聚合成一个向量c输入到解码器中。

1.3 稠密连接卷积

ConvLSTM通过在LSTM中融入卷积操作，有效提取图像的空间结构特征，但传统卷积结构可能因参数众多而在模型复杂化时遭遇梯度消失等挑战。改进卷积的方法包括结构优化和连接方式创新。例如视觉几何组(visual geometry group，VGG)^[18]采用多个小卷积核(如3×3)替代大卷积核(如7×7或5×5)，在保持相同感受野的同时，提升特征提取效率。残差网络(residual network，ResNet)^[19]引入残差连接，通过层间的跳跃连接，不仅增强了特征提取能力，还有效缓解了梯度消失问题。稠密连接^[20]是在残差连接的基础上提出的一种卷积连接方式。不同于残差块中累加计算方式，稠密连接采用通道拼接策略，如图 3所示。多个稠密块进行组合，将浅层的特征不断与深层特征稠密地连接在一起，不会破坏深层特征的结构同时又保留了更多浅层信息。

图 3 2种连接方式结构图 Fig.3 Structures of two kinds of connection

文中采用稠密连接卷积代替ConvLSTM中常规卷积的方法^[21]，设计一种新的结构块，旨在解决模型长时序预测时出现的模糊问题。首先将 H _t和 H _t－1在通道维上进行拼接，使用3×3卷积进行特征提取，然后在通道维上进行二次拼接。为了在卷积过程中保持特征图的尺寸和通道数一致性，采用批量归一化(batch normalization，BN)层、1×1卷积和池化(pooling)层的组合作为过渡层进行降维处理。通过多次实验后，在考虑平衡模型的参数和预测效率的同时选取2个稠密块组合的方式融合进ConvLSTM的单元模块，如图 4所示，将网络单元模块的每一个卷积都换成稠密连接卷积，强化模型的特征提取能力。

图 4 基于稠密块组合的ConvLSTM的单元模块 Fig.4 Structure of ConvLSTM cell based on dense block combination

1.4 模型结构

选用融合自注意力机制和稠密卷积的ConvLSTM模型作为网络架构，如图 5所示。模型采用Encoder-Decoder结构，输入10帧雷达回波图像，输出20帧外推图像。编码器和解码器均由对称的3层LSTM组成，每个单元中集成了稠密卷积和自注意力机制。在3层网络之后，引入局部自注意力块以提取更深层次的特征，并通过1×1卷积将这些特征压缩为中间向量c。最终，该向量被送入解码器以生成预测的雷达回波图像序列。模型的损失函数使用平均绝对误差(mean absolute error, MAE)和均方误差(mean squared error, MSE)结合的损失函数，如公式(19)所示。

$ \operatorname{Loss}\left(y_i, \hat{y}_i\right)=\frac{1}{2}\left[\left(y_i-\hat{y}_i\right)^2+\left|y_i-\hat{y}_i\right|\right] $

(19)

图 5 基于自注意力机制和稠密卷积的雷达回波外推模型 Fig.5 An improved radar echo extrapolation method based on self-attention mechanism and dense convolution

式中：Loss代表模型的损失函数，y_i表示实际观测值集合中的第i个真实观测值，$\hat{y}_i$代表第i个观测值在预测值集合中对应的预测值。

2 实验 2.1 数据集

数据来源于安徽省首届江淮气象大数据智能算法竞赛，原始数据为雷达组合反射率(combined reflectivity，CR)拼图，数据范围是27°~36°N、113°~121°E，覆盖整个安徽省。该数据集中每一个样本包括240张900×800的雷达回波序列图片，时间间隔为6 min。单个样本为1 d的连续观测数据，时间跨度为2016年5—9月，共有153 d的连续观测样本。

文中的实验基于气象台实际天气预报结果，从数据集中挑选存在天气过程的15 d数据构成新的雷达回波数据集，其中包含2016年6月19—22日、6月28日—7月4日、9月27—30日的数据，这种挑选能够保证数据集中包含更多可用的数据，尤其包含更多高强度的回波数据。在新数据集上使用跨度为2、步长为30的滑动窗口进行截取，共获得1 380个雷达回波序列，前10帧为输入序列，后20帧为预测结果。其中，1 242个作为训练数据，138个作为测试数据。

实验使用的环境为Windows 64位操作系统、GeForce RTX 4090 GPU，使用Python3.8、Torch2.0编程工具。在数据预处理阶段，为提高模型训练稳定性，将原始雷达回波图中的负值设为0，高于70 dBZ的值设为70，并进行归一化处理。模型训练时，考虑到算力的有限和模型的训练效率，将数据下采样为70×70输入到模型中进行训练，设置初始学习率为0.001，优化器采用Adam，并在训练过程中应用early stopping策略，当连续10个epoch损失无显著下降时终止训练。

2.2 评估指标

实验使用的评分函数为气象业务中常用的临界成功指数(critical success index，CSI)、命中率(probability of detection，POD)、空报率(false alarm rate，FAR)。使用阈值化的方法来衡量预测值和真实值之间的差别，如果值大于给定阈值将对应设为1，否则设为0。TP、FP、TN、FN分别代表真阳性、假阳性、真阴性、假阴性，所得具体计算公式如下。

$ I_{\mathrm{CS}}=\frac{N_{\mathrm{TP}}}{N_{\mathrm{TP}}+N_{\mathrm{FN}}+N_{\mathrm{FP}}} $

(20)

$ V_{\mathrm{POD}}=\frac{N_{\mathrm{TP}}}{N_{\mathrm{TP}}+N_{\mathrm{FN}}} $

(21)

$ V_{\mathrm{FAR}}=\frac{N_{\mathrm{FP}}}{N_{\mathrm{TP}}+N_{\mathrm{FP}}} $

(22)

式中：I_CS代表临界成功指数的值，V_POD代表命中率的值，V_FAR代表空报率的值，N_TP、N_FP、N_TN、N_FN代表当预测值被分别判定为真阳性、假阳性、真阴性、假阴性时的个数。

3 实验结果分析 3.1 可视化分析

现有一些雷达回波外推研究大多基于过去1 h的雷达回波图像来预测未来1 h的雷达回波图像，而考虑到临近预报0~2 h的预报需求，设计用过去1 h的雷达回波图像直接预测未来2 h的雷达回波图像。为了评估提出的模型的性能，将ConvLSTM模型作为基准模型进行可视化对比，图 6展示了4个不同时间段天气个例的对比实验结果。由于实验是使用过去1 h预测未来2 h的雷达回波图像，即使用过去的10帧图像预测未来的20帧图像，雷达回波图像间隔为6 min，为方便起见，以2帧为间隔进行取样，只展示预测2 h共10帧雷达回波图像。

图 6 强对流天气个例的雷达回波外推结果可视化对比 Fig.6 Visual comparison of radar echo extrapolation results of severe convective weather cases

图 6a给出的个例包含块状回波，具有大块的高强度发展中回波。可以看出，此文模型对于高强度回波的预测具有更为准确的回波形状和细节性纹理，预测前期对于高强度回波的预测更加精确，预测后期也能够很好地保留强度更高区域的雷达回波形状；而ConvLSTM预测强回波的能力较弱，随时间推移难以保持明显的回波边界形状，细节丢失情况更为严重，且预测后期出现了强回波中心偏移和分散的现象。

图 6b给出的个例包含带状回波，高强度回波覆盖区域面积较小，更加难以预测。可以看出，此文模型在带状回波发展过程预测具有较强的稳定性，预测前期与真实回波图像更为相似，回波的发展细节预测更为精准；而ConvLSTM预测回波形状的精细化表达较弱，回波边界更加平滑，与真实回波的形状不够相似，在预测前期已经丢失一些高强度回波的信息。尽管在预测后期，ConvLSTM预测出的强回波面积更广，但是对于强回波中心的推演并不准确。

图 6c给出的个例包括大面积的块状雷达回波，其中高于45 dBZ的强回波呈现不规则的分散分布。在此场景下，此文提出的模型展现出较好的特征捕捉能力。对于分散的强回波，模型准确地重构了其密集与不规则的结构，还精确预测了这些高密度回波区域的时间演变趋势。预测结果显示ConvLSTM模型对块状回波的边界预测较为准确，但强度分布趋于均一化，缺乏对局部强度突变的精细表达，导致预测图像与实际观测存在较大偏差。

图 6d给出的个例包括天气过程的生消过程，回波信号微弱且分散，对模型的敏感度和精确度提出了极高要求。此文模型在该场景中，即使是较为细小的回波区域也得到了较好的保留和延展预测，这对于早期识别潜在的天气系统尤为重要。相反，ConvLSTM模型在处理这类稀疏回波数据时面临较大困难，仅能够保证回波轮廓的完整性，而缺失高强度回波的发展特征。

通过对比图像也可以看出，在预测结果的前10帧左右，2种雷达回波外推模型都能够预测得更加精细，回波边界也更加明确。到了后10帧时，模型的预测能力逐渐减弱，尤其是强回波区域的预测结果与实况的重合率逐渐减弱，ConvLSTM模型的预测不稳定性相对更强。

3.2 阈值检验

为了研究模型对于不同回波强度的预测能力，选取25 dBZ、35 dBZ和45 dBZ这3个阈值对模型进行二值化。表 1给出了此文模型与ConvLSTM模型在阈值为25 dBZ、35 dBZ和45 dBZ时的评估结果。当阈值为25 dBZ时，此文模型比ConvLSTM的CSI和POD评分分别提高18.8%和14.4%，FAR评分降低22.7%。当阈值为35 dBZ时，此文模型比ConvLSTM的CSI和POD分别提高3.2%和0.3%，FAR降低28.6%。当阈值为45 dBZ时，此文模型比ConvLSTM的CSI和POD分别提高9.1%和10.4%，FAR降低33.1%。可以看出此文模型比ConvLSTM模型的整体性能要好，预测结果更加准确。

表 1 模型改进前后不同雷达反射率阈值下评估结果 Table 1 Evaluation results under different thresholds of reflectivity before and after model improvement 单位: %

3.3 消融实验

为了证明自注意力模块和稠密卷积对模型性能提升的有效性，进行了消融实验，实验对比结果如表 2所示。SA-ConvLSTM表示仅在单元模块中添加自注意力模块所得到的模型，SA-ConvLSTM+表示仅在编码器后添加局部自注意力块所得到的模型，DenConvLSTM表示仅在单元卷积中使用稠密卷积替换普通卷积所得到的模型。通过对比知，添加自注意力模块的SA-ConvLSTM和SA-ConvLSTM+模型都能够提高预测的效率，可以分别将CSI和POD提高11.3%和1.4%，将FAR降低42.1%，说明添加自注意力模块有助于提高模型的特征捕捉能力。但是，将2个自注意力模块同时引入模型能够得到更好的提升，CSI和POD分别提高18.8%和14.4%。而加入稠密卷积的模型能够将CSI提高3.4%，将FAR降低18.6%，尽管模型在POD指标上表现一般，但是最终融入稠密卷积的模型仍然可以提高预测效率。

表 2 消融实验对比评估结果 Table 2 Comparative evaluation results of ablation experiment 单位: %

4 结论

针对雷达回波外推存在模糊失真、强回波发展的预测准确率较低和数据利用率较低等问题，基于ConvLSTM提出一种带有自注意力机制和稠密卷积的雷达回波外推模型，并实现了利用过去1 h的雷达回波图预测未来2 h的雷达回波图。主要得出以下结论。

(1) 此文模型能够提高雷达回波外推的准确率。通过融入自注意力机制能够减弱局部对外部信息的依赖，提高模型学习特征内部相关性的能力，最终强化模型的高强度回波特征的捕捉能力。同时，在卷积层方面改进图像特征的重用能力，进一步提高模型的细节特征提取能力。实验结果证明改进后的模型相比于ConvLSTM能够精细化模型的预测，预测的雷达回波图像更加清晰和准确。

(2) 此文模型直接使用过去1 h的雷达回波图预测未来2 h的雷达回波图，这种端到端的方法不仅延长了预测时序，而且维持了预测的准确性，减少了图像的模糊失真，有效支持了0~2 h的短临天气预报。

(3) 雷达回波数据对于外推结果的影响较大。自注意力机制虽能辅助细小区域识别，但数据集质量仍是性能关键。因此此文在原始数据集中挑选出具有明显天气过程的数据并进行下采样，以保证模型能够学习到更多正样本。

实验结果证明基于自注意力和稠密卷积改进ConvLSTM的雷达回波外推方法有较高的预测准确率和应用可行性。未来，可尝试模型结构的优化，使用采样加裁剪的方式进一步处理样本，同时减少参数量，平衡模型的计算复杂度与实时预测效率。同时，未来工作将考虑处理未经质控或质控不彻底的雷达数据集中存在的算法不可控，尝试使用动态质控标准来计算数据的质量指标，并在自注意力计算中引入数据质量权重，降低劣质数据对最终结果的干扰。

参考文献

[1]	肖蕾, 杜小玲, 武正敏, 等. 贵州省短时强降水时空分布特征分析[J]. 暴雨灾害, 2021, 40(4): 383-392. DOI:10.3969/j.issn.1004-9045.2021.04.006
[2]	乔春贵, 郑世林, 杨立志, 等. 质心法雷达回波外推的原理及应用[J]. 河南气象, 2006, 29(3): 29-30. DOI:10.3969/j.issn.1673-7148.2006.03.019
[3]	GERMANN U, ZAWADZKI I. Scale-dependence of the predictability of precipitation from continental radar images. Part Ⅰ: description of the methodology[J]. Mon Wea Rev, 2002, 130(12): 2859-2873. DOI:10.1175/1520-0493(2002)130<2859:SDOTPO>2.0.CO;2
[4]	陈雷, 戴建华, 陶岚. 一种改进后的交叉相关法(COTREC)在降水临近预报中的应用[J]. 热带气象学报, 2009, 25(1): 117-122. DOI:10.3969/j.issn.1004-4965.2009.01.015
[5]	DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015: 2758-2766.
[6]	TEED Z, DENG J. RAFT: Recurrent All-Pairs Field Transforms for optical flow[C]//VEDALDI A, BISCHOF H, BROX T, et al. Computer Vision-ECCV 2020. Cham, Switzerland: Springer, 2020: 402-419.
[7]	SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[J]. Adv Neural Inf Process Syst, 2015, 802-810.
[8]	王友宁, 白金明, 刘琦. 基于RC-LSTM的雷达回波外推方法[J]. 计算机集成制造系统, 2024, 30(8): 2962-2967.
[9]	WANG Y B, LONG M S, WANG J M, et al. PredRNN: recurrent neural networks for predictive learning using spatiotemporal LSTMs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, United States: Curran Associates Inc., 2017: 879-888.
[10]	刘瑞华, 高翔, 邹洋杨. 基于多尺度混合注意力LSTM雷达回波外推方法[J]. 重庆理工大学学报(自然科学), 2023, 37(6): 212-221.
[11]	庞林. 基于注意力机制和深度时空融合网络的雷达回波外推方法研究[D]. 南京: 南京信息工程大学, 2022.
[12]	程勇, 钱坤, 康志明, 等. 一种雷达回波外推的注意力融合和信息回忆的LSTM方法[J]. 热带气象学报, 2023, 39(5): 653-663.
[13]	LIANG H, CHEN H N, ZHANG W, et al. Convective precipitation nowcasting using U-Net Model[C]//2021 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Brussels, Belgium: IEEE, 2021: 7134-7137.
[14]	李建柱, 李磊菁, 冯平, 等. 基于深度学习的雷达降雨临近预报及洪水预报[J]. 水科学进展, 2023, 34(5): 673-684.
[15]	CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN Encoder-Decoder for statistical machine translation[C]//2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014: 1724-1734.
[16]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, United States: Curran Associates Inc., 2017: 6000-6010.
[17]	LIN Z H, LI M M, ZHENG Z B, et al. Self-attention ConvLSTM for spatiotemporal prediction[J]. Proc AAAI Conf Artif Intell, 2020, 34(7): 11531-11538.
[18]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//2014 International Conference on Learning Representations. Banff, Canada: Computational and Biological Learning Society Computer Science, 2014.
[19]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 770-778.
[20]	HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 2261-2269.
[21]	吴思瑶. 基于LSTM的视频帧预测算法研究[D]. 哈尔滨: 哈尔滨工程大学, 2022.