计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (11): 123-128.DOI: 10.3778/j.issn.1002-8331.1810-0127
汪 岿1,费晨杰1,刘柏嵩1,2
WANG Kui1, FEI Chenjie1, LIU Baisong1,2
摘要: 传统的主题爬虫在计算主题相似度时,通常采用基于词频、向量空间模型以及语义相似度的方法,给相似度计算准确率的提升带来一定瓶颈。因此,提出融合LDA的卷积神经网络主题爬虫,将主题判断模块视为文本分类问题,利用深度神经网络提升主题爬虫的性能。在卷积层之后拼接LDA提取的主题特征,弥补传统卷积神经网络的主题信息缺失。实验结果表明,该方法可以有效提升主题判断模块的平均准确率,在真实爬取环境中相比其他方法更具优势。