计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (14): 107-113.DOI: 10.3778/j.issn.1002-8331.2208-0299
曾祥玖,刘达维,刘逸凡,赵志滨,柳秀梅,任酉贵
ZENG Xiangjiu, LIU Dawei, LIU Yifan, ZHAO Zhibin, LIU Xiumei, REN Yougui
摘要: 视频分类是理解、归纳和检索视频数据的一个重要环节。新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系。针对上述问题,采用以音频模态为主,图像模态为辅的融合机制,提出了融合多模态特征的新闻短视频分类模型。为进一步利用音频为主的特点,采用两阶段训练方式,使用音频模态单独训练,音频和图像模态联合训练,利用图像信息修正分类结果,提升新闻短视频分类的准确率。为训练和评价模型,采集了10?304个新闻联播短视频作为实验数据集,总时长约为240?h。实验结果表明,所提模型的分类效果优于传统的新闻短视频分类模型。