多头注意力与语义视频标注

doi:10.3778/j.issn.1002-8331.1811-0306

计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (6): 133-139.DOI: 10.3778/j.issn.1002-8331.1811-0306

多头注意力与语义视频标注

石开，胡燕

武汉理工大学计算机学院，武汉 430070

出版日期:2020-03-15 发布日期:2020-03-13

Multi-Head Attention and Semantic Video Captioning

SHI Kai, HU Yan

School of Computer, Wuhan University of Technology, Wuhan 430070, China

Online:2020-03-15 Published:2020-03-13

摘要/Abstract

摘要：

在序列到序列的视频标注模型中，视频信息在经过编码之后被大幅压缩导致解码器端不能充分利用。为了解决这一问题，在模型中引入多头注意力机制和语义信息。多头注意力使得模型在生成不同的单词时可以焦距编码端视频信息的不同部分。语义信息由语义探测单元通过多标签分类方式生成视频的语义概率信息方式引入，给解码端提供额外指导，改进后的模型仍然是端到端的。实验结果表明，改进后的模型标注效果取得了显著的提升，采用的改进方法对提升标注能力有明显作用。

关键词: 视频标注, 多头注意力, 语义信息

Abstract:

In the sequence-to-sequence video captioning model, the video information is greatly compressed after being encoded, resulting in the decoder side cannot fully utilized the video information. To solve this problem, a multi-head attention mechanism and semantic information are introduced into the model. The multi-head attention allows the model to focus different parts of the video information when generate different words. The semantic information is introduced by the semantic detection unit through the multi-label classification approach to generate the semantic probability information of the video, which provides additional guidance to the decoding end. The modified model is still training in end-to-end. The experimental results show that the modified model captioning effect has been significantly improved, and the modified method has a significant effect on improving the captioning ability.

Key words: video captioning, multi-head attention, semantic information

石开，胡燕. 多头注意力与语义视频标注[J]. 计算机工程与应用, 2020, 56(6): 133-139.

SHI Kai, HU Yan. Multi-Head Attention and Semantic Video Captioning[J]. Computer Engineering and Applications, 2020, 56(6): 133-139.

[1]	王舒雅，刘强春，陈云芳，王福俊. 颜色模型扰动的语义对抗样本生成方法[J]. 计算机工程与应用, 2021, 57(15): 163-170.
[2]	翟一鸣，王斌君，周枝凝，仝鑫. 面向文本分类的多头注意力池化RCNN模型[J]. 计算机工程与应用, 2021, 57(12): 155-160.
[3]	刘心惠，陈文实，周爱，陈飞，屈雯，鲁明羽. 基于联合模型的多标签文本分类研究[J]. 计算机工程与应用, 2020, 56(14): 111-117.
[4]	于婷，张发明，何意雄. 二元语义信息下的动态激励群体评价方法及应用[J]. 计算机工程与应用, 2017, 53(18): 263-270.
[5]	张春祥1，2，邓龙3，高雪瑶3，卢志茂2. 结合语义知识的汉语词义消歧[J]. 计算机工程与应用, 2016, 52(3): 119-122.
[6]	张佳明，席耀一，王波，唐浩浩，李天彩. 基于词向量的微博事件追踪方法[J]. 计算机工程与应用, 2016, 52(17): 73-78.
[7]	海银花. 蒙古语语义信息词典SIKM的研发[J]. 计算机工程与应用, 2016, 52(10): 128-134.
[8]	吴尧锋1，王文2，卢科青2，魏燕定1，陈子辰1. 逆向工程中基于语义的测量信息传递方法研究[J]. 计算机工程与应用, 2015, 51(20): 140-144.
[9]	李嘉，徐前，王梓，陈钊. 基于语义的林产品贸易Web信息抽取算法[J]. 计算机工程与应用, 2014, 50(19): 199-204.
[10]	代东锋，詹永照，柯佳. 基于时序概率超图模型的视频多语义标注[J]. 计算机工程与应用, 2013, 49(4): 197-201.
[11]	张辉，丁博，孙立镌. 异构CAD系统语义信息交换方法研究[J]. 计算机工程与应用, 2013, 49(11): 149-152.
[12]	戴长华,张翀,唐九阳,肖卫东 . 一种基于本体的地理多维语义信息组织方法[J]. 计算机工程与应用, 2008, 44(29): 153-156.
[13]	盖亮冯志勇. 集成语义信息的电子商务推荐系统[J]. 计算机工程与应用, 2007, 43(11): 197-200.

多头注意力与语义视频标注

Multi-Head Attention and Semantic Video Captioning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 13

编辑推荐

Metrics