计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (12): 116-120.DOI: 10.3778/j.issn.1002-8331.1612-0277
宋冬云,郑 瑾,张祖平
SONG Dongyun, ZHENG Jin, ZHANG Zuping
摘要: 为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法。首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型(VSM),计算关键词加权的文本相似度。然后,通过提取句子的主干成分对传统的基于语法语义模型的方法进行改进,得到文本主干的语义相似度;最后,对两种相似度进行加权,计算最终的文本相似度。实验结果表明,提出的方法在短文本相似度计算方面准确性更高,更加适合人们的主观判断。