计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (12): 183-190.DOI: 10.3778/j.issn.1002-8331.2203-0035
江英杰,宋晓宁
JIANG Yingjie, SONG Xiaoning
摘要: 目前基于Transformer的目标跟踪算法主要利用Transformer来融合深度卷积特征,忽略了Transformer在特征提取和解码预测方面的能力。针对上述问题,提出一种基于视觉Transformer的双流目标跟踪算法。引入基于注意力机制的Swin Transformer进行特征提取,通过移位窗口进行全局信息建模。使用Transformer编码器对目标特征和搜索区域特征进行充分融合,使用解码器学习目标查询中的位置信息。分别对编解码器中的双流信息进行目标预测。在决策层面上进一步地加权融合得到最终跟踪结果,并使用多监督策略。该算法在LaSOT、TrackingNet、UAV123和NFS四个具有挑战性的大规模跟踪数据集上取得了先进的结果,分别达到67.4%、80.9%、68.6%和66.0%的成功率曲线下面积,展示了其强大的潜力。此外,由于避免了复杂的后处理步骤,能够端到端进行目标跟踪,跟踪速度可达42?FPS。