计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (4): 214-218.DOI: 10.3778/j.issn.1002-8331.1810-0363
吴青科,吴晓,袁雨阳,官锌强
WU Qingke, WU Xiao, YUAN Yuyang, GUAN Xinqiang
摘要:
在公共安全领域,基于图像的人群计数具有重要的社会意义和应用前景,难题在于人群遮挡、密度分布不均、背景噪声和人在场景中的尺度和外观变化范围大。提出一种深度卷积神经网络结构,一方面使用类似于VGG16的网络结构来学习图片中的深层语义信息,另一方面使用多列神经网络来学习各种头部尺寸的特征信息。将拥有不同大小感受野和深度的分支网络得到的特征图融合在一起,可有效地收集到图片中的底层细节特征和高层语义信息。通过将这两部分结合在一起计算人群数量。在ShanghaiTech数据集上测试,Part_A和Part_B的平均绝对误差分别为72.0和10.1;Part_A和Part_B的均方误差分别为107.9和16.0。