计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (19): 92-98.DOI: 10.3778/j.issn.1002-8331.2206-0199
高辉,邓淼磊,赵文君,陈法权,张德贤
GAO Hui, DENG Miaolei, ZHAO Wenjun, CHEN Faquan, ZHANG Dexian
摘要: 针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局最大池化操作,提取更加丰富的人头细节信息。在编码器-解码器阶段,将聚合特征嵌入位置信息作为编码器的输入,且每个解码器层采用一组可训练嵌入作为查询,并将编码器最后一层的视觉特征作为键和值,解码后的特征用于预测置信度得分。通过二值化模块自适应优化阈值学习器,从而精确地二值化置信度图。在不同数据环境下对三个数据集进行实验,结果表明该方法实现了最佳定位性能。