计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (23): 140-143.DOI: 10.3778/j.issn.1002-8331.2009.23.039
何海江,凌 云
HE Hai-jiang,LING Yun
摘要: 针对Web社区垃圾信息泛滥的问题,采用基于Logistic回归(LR)的分类器区分合法评论和垃圾评论,并和支持向量机(SVM)的性能对比。提出了相关度向量空间模型cVSM作为评论的文档表示模型,讨论了信息增益IG、互信息MI、χ2统计CHI、文档频率DF等不同特征抽取方法对模型的影响。实验结果表明,LR的训练时间不到SVM的1/10;DF和IG比MI和CHI表现更好;与传统的向量空间模型相比,使用cVSM显著提高垃圾评论识别能力。
中图分类号: