计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (36): 129-130.DOI: 10.3778/j.issn.1002-8331.2009.36.038
黄秀丽,王 蔚
HUANG Xiu-li,WANG Wei
摘要: 文本分类中特征空间的高维问题是文本分类的主要障碍之一。特征选择(Feature Selection)是一种有效的特征降维方法。现有的特征选择函数主要有文档频率(DF),信息增益(IG),互信息(MI)等。基于特征的基本约束条件以及高性能特征选择方法的设计步骤,提出了一种改进的特征选择方法SIG。该特征选择方法在保证分类效果的同时,提高了对中低频特征的偏向。在语料集Reuters-21578上的实验证明,该方法能够获得较好的分类效果,同时有效提高了对具有强分类能力的中低频特征的利用。
中图分类号: