计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (11): 246-251.DOI: 10.3778/j.issn.1002-8331.1902-0246
张航,盛志伟,张仕斌,杨敏
ZHANG Hang, SHENG Zhiwei, ZHANG Shibin, YANG Min
摘要:
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析。仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、[F]值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果。