计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (14): 111-117.DOI: 10.3778/j.issn.1002-8331.1904-0273
刘心惠,陈文实,周爱,陈飞,屈雯,鲁明羽
LIU Xinhui, CHEN Wenshi, ZHOU Ai, CHEN Fei, QU Wen, LU Mingyu
摘要:
目前大部分多标签文本分类算法忽视文本序列中不同词的重要程度、不同层次文本特征的影响,提出一种ATT-Capsule-BiLSTM模型,使用多头注意力机制(Multi-head Attention),结合胶囊网络(CapsuleNet)与双向长短期记忆网络(BiLSTM)方法。将文本序列向量化表示,在词向量的基础上通过多头注意力机制学习单词的权重分布。通过胶囊网络和BiLSTM分别提取局部空间信息和上下文时序信息的特征表示,通过平均融合后,由sigmoid分类器进行分类。在Reuters-21578和AAPD两个数据集上进行对比实验,实验结果表明,提出的联合模型在使用简单架构的情况下,达到了较好的性能,[F1]值分别达到了89.82%和67.48%。