计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (3): 202-208.DOI: 10.3778/j.issn.1002-8331.2109-0213
于海港,何宁,刘圣杰,韩文静
YU Haigang, HE Ning, LIU Shengjie, HAN Wenjing
摘要: 在视频理解任务中,人体行为识别是一个重要的研究内容,但视频序列中存在时空信息融合困难、准确率低等问题。针对这些问题,提出一种基于时空信息融合的双流时空残差卷积网络模型。将视频分段采样提取RGB图像和光流图像,并将其输入到双流时空残差网络,通过设计的时空残差模块提取视频的深度时空特征,将每个视频片段的类别结果加权融合得到行为类别。提出的双流时空残差模块引入了少量的三维卷积和混合注意力机制,能够同时获取不同尺度的时空信息并且抑制无效信息,可以有效平衡时空信息的捕捉和计算量问题,并且提升了精度。实验基于TSN网络模型,在UCF101数据集上进行验证,实验结果表明提出的模型比原TSN网络模型的精准度提高了0.9个百分点,有效地提高了网络的时空信息捕获效率。