计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (16): 135-137.
史岳鹏1,张明慧2,朱颢东3
SHI Yuepeng1,ZHANG Minghui2,ZHU Haodong3
摘要: 特征选择是文本分类的一个重要步骤。分析了互信息,针对其不足引进了粗糙集给出了一个基于关系积的属性约简算法,并以此为基础提出了一个新的适用于海量文本数据集的特征选择方法。该方法使互信息进行特征初选,利用基于关系积的属性约简算法消除冗余词。实验结果表明此种特征选择方法的微平均F1和宏平均F1较高。