计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (25): 1-4.
刘海峰1,陈 琦1,张以皓2
LIU Haifeng1, CHEN Qi1, ZHANG Yihao2
摘要: 提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征加权。该方法改善了MI模型的特征选择效率。文本分类实验结果验证了提出的优化互信息特征选择方法的合理性与有效性。