近日,公司陈颖频副教授在视频目标跟踪研究领域取得重要进展,该成果以“A Multi-scale Cyclic-Shift Window Transformer Object Tracker Based on Fast Fourier Transform”为题发表于国际权威期刊《Electronic Research Archive》(中科院4区,JCR Q1区期刊,IF=1.1)。
视频目标跟踪旨在给定一个视频序列的初始帧中感兴趣目标的坐标和宽高,通过对目标的外观等特征进行建模,并在后续帧中对其继续进行精准定位,从而完成对目标对象的跟踪。该技术已广泛应用于智能驾驶、目标识别等领域,为计算机视觉的下游任务提供高质量的数据来源。
尽管各类目标跟踪方法层出不穷,但开发能保护目标的完整性以及位置信息的轻量级跟踪网络仍面临挑战。相关滤波跟踪理论表明,一个矩阵与另一个循环移位矩阵的相关操作可引入快速傅里叶变换高效计算。进而一个值得探讨的问题是,是否可以借助快速傅里叶变换(FFT)来规避空域上循环移位样本带来的高存储需求和高计算复杂度。其次,对每个窗口进行循环移位策略会产生大量的矩阵乘法计算,占用计算资源和存储资源,这必然会影响模型的跟踪速度。因此,优化计算方式,减少跟踪器所占用的计算资源就显得尤为必要。为解决这些问题,本文提出了一种具有循环移位窗口的高效Transformer目标跟踪器,如图1所示,跟踪器主体框架由骨干网络、特征融合模块、特征增强模块和预测分析模块四部分组成。

图1. 提出网络示意图
如图2所示,鉴于循环矩阵在实际应用中存在由于所产生的数据具有冗余性,在空域上直接计算时体现为计算量较大、计算复杂度较高,进而导致运行所占用的内存较大等问题,将循环矩阵的运算操作由复杂的空域上计算转换为频域内的点对点相乘以减少运算开销便具有了可行性。在窗口尺寸等于8时,频域特征融合模块参与网络训练和推理。

图2. 频域特征融合模块示意图
如图3所示,借助特征增强模块中的多头自注意力(MSA)与多头交叉注意力(MCA)单元,特征增强模块对目标序列Query进行学习,特征增强模块与特征融合模块一起构成Transformer所具有的编码-解码器构造,帮助了模型构建起时间上下文感知,进而获得更为丰富的时-空上下文关联信息,最终对模型进一步提升精度施加影响。

图3 特征增强模块示意图

图4 预测分析模块示意图
预测分析模块如图4所示,包含了边界框预测头以及分类分数头,特征融合模块最终输出的增强特征 将分别送入边界框预测头以及分类分数头进行分析,从而实现进一步的跟踪以及预测。
综上所述,本文主要创新点有如下几点:
1. 单尺度像素级注意力机制替换为多尺度窗口级注意力机制:采用窗口级注意力机制取代传统的像素级注意力机制,避免了像素级注意力机制可能带来的目标完整性及位置信息被破坏的问题;
2. 引入循环移位机制以扩充样本位置的多样性:结合循环移位机制,所提出的网络能够在不同窗口之间有效交换信息,从而丰富训练样本的多样性,增强模型在应对复杂场景时的泛化能力;
3. 新颖的注意力计算策略:该策略先将空域中的注意力计算视为矩阵间的相关运算,再利用快速傅里叶变换(FFT)的优势将空域相关运算转换为频域中的点乘运算,显著提高计算效率并降低存储成本;
4. 目标定位精度的提升:我们将分类和回归两种性质不同的任务解耦,引入角点估计网络和预测头,使提出的模型具备更强的应对目标快速运动所产生的尺度变化等问题的能力,进一步提高了网络的推理精度。
实验结果表明,提出网络在众多视频目标跟踪方法中取得了先进性能。如表1与图5所示,本文提出方法在三个不同测试集上的测试结果中指标均居于前列。从图6的跟踪结果可视化对比可观察到,许多跟踪器无法对快速运动的被跟踪目标进行有效的识别,本文所提出算法在全视频序列中均能准确地对目标进行跟踪。
表1 LaSOT、OTB100和UAV123数据集的详细对比.最好的三个结果以红色、蓝色和绿色字体显示.
Method | Year | LaSOT | OTB100 | UAV123 |
AUC(%) | PNorm(%) | P(%) | SR(%) | PR (%) | AUC(%) | P(%) |
SiamRPN++ | 2019 | 49.6 | 56.9 | 49.1 | - | - | 64.2 | 84.0 |
TransT | 2021 | 64.2 | 73.5 | 68.2 | - | - | 66.0 | 85.2 |
STARK | 2021 | 65.8 | 75.2 | 69.8 | - | - | 68.4 | 89.0 |
DSTrpn | 2021 | 43.4 | 54.4 | - | 64.6 | 85.7 | - | - |
CLNet*-BAN | 2022 | 52.9 | 62.3 | 52.6 | - | - | - | - |
TCTrack++ | 2022 | 43.5 | 48.4 | 41.4 | 54.3 | 72.0 | 51.9 | 73.1 |
RTSFormer | 2024 | 62.3 | 65.6 | 65.5 | - | - | 67.5 | - |
AGST-BR | 2024 | 56.7 | - | 58.3 | - | - | 66.3 | - |
SiamRPN++-ACM | 2024 | 52.3 | - | - | 71.2 | - | - | - |
MixFormer | 2024 | 69.6 | 79.9 | 75.9 | 71.6 | 94.4 | 68.7 | 89.5 |
MCWTT | Ours | 65.6 | 74.5 | 70.0 | 66.7 | 86.6 | 68.7 | 89.2 |
|
|
(a) | (b) |
图5 OTB100 数据集跟踪器性能对比图. (a) 成功率图; (b) 精确度图.

图6 提出方法与其他方法的跟踪结果可视化
PA视讯官网为该工作唯一通讯单位,公司2023级硕士研究生吴桓宇为论文第一作者,陈颖频副教授为唯一通讯作者。研究得到了福建省自然科学基金 (2024J01820, 2024J01821, 2024J01822),漳州市自然科学基金 (ZZ2023J37)资助。
论文链接:https://www.aimspress.com/article/doi/10.3934/era.2025162
(图/文:陈颖频)