计算机工程与应用 ›› 2022, Vol. 58 ›› Issue (20): 148-156.DOI: 10.3778/j.issn.1002-8331.2103-0280
袁赛美,黄怡蒙,冯李航,朱文俊,易阳
YUAN Saimei, HUANG Yimeng, FENG Lihang, ZHU Wenjun, YI Yang
摘要: 基于视频的人体行为定位技术在城市安全系统、人机交互系统等领域具有广泛应用需求。针对现有人体行为定位技术模型复杂、定位精度与检测速度难以平衡的问题,提出了一类新的人体行为定位的深度学习框架X_YOWO,该框架继承了原YOWO的3D-CNN和2D-CNN两个分支,重新设计了通道融合与边界回归策略:通过基于相关系数矩阵的通道注意机制和相关性损失函数,使得模型在样本较少的情况下获得更多的有效特征,提高模型对特征的学习能力;采用一种基于距离概率大小来进行锚点聚类选择的方法,避免了原始聚类中心稳定性差的问题,使得改进后的锚点框大小更加适应数据集中目标大小的变化;采用CIoU回归损失函数作为目标函数,提高边界框回归的稳定性。在公开数据集UCF101-24和J-HMBD-21上对不同方法进行性能对比,当检测速度为22?frame/s时,使用X_YOWO后frame-mAP指标提高了3个百分点,不同阈值下的video-mAP指标也有较好表现。在自制的数据集上,当检测速度为22?frame/s时,X_YOWO的检测精度提高了3.6个百分点,定位精度提高了4.94个百分点,稳定性也更强。实验结果验证了X_YOWO在保证实时性前提下,具有更高的检测精度、稳定性及泛化能力。