计算机工程与应用 ›› 2010, Vol. 46 ›› Issue (16): 160-162.DOI: 10.3778/j.issn.1002-8331.2010.16.047
吴洪丽1,2,朱颢东2,周瑞琼1
WU Hong-li1,2,ZHU Hao-dong2,ZHOU Rui-qiong1
摘要: 特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征分辨率的概念,并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征分辨率结合起来,提出了一个新的特征选择方法。该方法首先利用特征分辨率进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。
中图分类号: