计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (10): 171-179.DOI: 10.3778/j.issn.1002-8331.2201-0406
程子晨,李彦,葛江炜,纠梦菲,张敬伟
CHENG Zichen, LI Yan, GE Jiangwei, JIU Mengfei, ZHANG Jingwei
摘要: 如何对模态进行有效表示和对模态间信息进行高效融合,一直是多模态情感分析领域的一个热点问题。已有研究大都以Transformer为基础,对其中自注意力模块进行改进以达到跨模态融合的效果。但基于Transformer的融合方式往往忽略了不同模态之间的重要程度,同时Transformer无法有效地捕捉到时间特征。为此,提出了基于跨模态调制及模态门控网络模型。该模型利用LSTM网络和BERT分别作为视觉、听觉和文本模态的表示子网络;利用改进的Transformer模型的跨模态调制模块对不同的模态信息进行有效的融合;设计了模态门控网络,模拟人类对来自不同模态的信息进行综合的判断。利用MOSI、MOSEI数据集进行了对比实验,结果表明所提出的方法有效地提高了情感分类的准确度。