计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (34): 121-123.DOI: 10.3778/j.issn.1002-8331.2009.34.037
朱颢东1,2,钟 勇1,2
ZHU Hao-dong1,2,ZHONG Yong1,2
摘要: 为了提高文本分类算法的效率和精度,必须使用特征选择算法来降低特征空间的维数。然而许多常用特征选择算法在选择属性时,只是利用特征的权重而并没有考虑特征之间的隐含关系,使得得到的特征集存在一定的冗余,并不具备较好的代表性。首先给出了一个基于最小词频的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性,然后使用LSA进行词语间的语义分析,消除同义词和多义词的影响,提高了文本分类的速度与精确度。实验结果表明此种特征选择方法效果良好。
中图分类号: