计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (30): 134-137.DOI: 10.3778/j.issn.1002-8331.2010.30.040
陈吕强1,朱颢东2,3,伏明兰1
CHEN Lv-qiang1,ZHU Hao-dong2,3,FU Ming-lan1
摘要: 特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了类内集中度的概念,紧接着把分层递阶的思想引入粗糙集并提出了一个改进的基于分层递阶的属性约简算法,最后把该约简算法同类内集中度结合起来,提出了一个综合的特征选择方法。该方法首先利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。
中图分类号: