计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (6): 94-100.DOI: 10.3778/j.issn.1002-8331.1912-0185
黄金杰,蔺江全,何勇军,何瑾洁,王雅君
HUANG Jinjie, LIN Jiangquan, HE Yongjun, HE Jinjie, WANG Yajun
摘要:
短文本通常是由几个到几十个词组成,长度短、特征稀疏,导致短文本分类的准确率难以提升。为了解决此问题,提出了一种基于局部语义特征与上下文关系融合的中文短文本分类算法,称为Bi-LSTM_CNN_AT,该算法利用CNN提取文本的局部语义特征,利用Bi-LSTM提取文本的上下文语义特征,并结合注意力机制,使得Bi-LSTM_CNN_AT模型能从众多的特征中提取出和当前任务最相关的特征,更好地进行文本分类。实验结果表明,Bi-LSTM_CNN_AT模型在NLP&CC2017的新闻标题分类数据集18个类别中的分类准确率为81.31%,比单通道的CNN模型提高2.02%,比单通道的Bi-LSTM模型提高1.77%。