计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (17): 196-202.DOI: 10.3778/j.issn.1002-8331.2005-0341
丁勇,程家桥,蒋翠清,王钊
DING Yong, CHENG Jiaqiao, JIANG Cuiqing, WANG Zhao
摘要:
比较文本对于企业竞争产品分析至关重要,但目前面向问答领域的比较文本分类研究较少。针对问答文本中比较信息丰富、主题集中的特点,提出了基于主题特征和关键词特征扩展的比较文本分类方法。通过预训练主题模型,推断问答文本的主题概率分布作为其主题特征;针对向量拼接、求和导致关键词信息流失的问题,设计GRU自编码器实现关键词向量特征提取。综合文本主题信息和关键词语义,从语言、产品、情感、社交、主题、关键词角度构建比较文本分类特征,最后使用多种分类器对问答文本进行分类。实验结果表明,构建的特征行之有效,比较文本分类效果较好。