计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (20): 147-157.DOI: 10.3778/j.issn.1002-8331.2211-0456
项剑文,陈泯融,杨百冰
XIANG Jianwen, CHEN Minrong, YANG Baibing
摘要: 针对细粒度图像类间差异小、类内差异大等问题,提出了一种基于Swin及多尺度特征融合的模型(SwinFC)。基准骨干网络采用具有多阶段层级架构设计的Swin Transformer模型作为全新视觉特征提取器,从中获取局部和全局信息以及多尺度特征。然后在每个阶段的分支通道上嵌入融合外部依赖及跨空间注意力模块,以捕获数据样本之间的潜在相关性,同时捕捉不同空间方向上具有判别力的特征信息,进而强化网络每个阶段的信息表征。进一步地,引入特征融合模块将每个阶段提取的特征进行多尺度融合,促使网络学习更加全面、互补且多样化的特征信息。最后构建特征选择模块来筛选重要且具有辨别力的图像块,以此增大类间差异,减小类内差异,增强模型的判别力。实验结果表明,该方法在CUB-200-2011、NABirds和WebFG-496三个公开细粒度图像数据集上分别达到了92.5%、91.8%和85.84%的分类准确率,性能优于大部分主流模型方法,并且与基准模型Swin相比,分别提高了1.4、2.6和4.86个百分点的分类性能。