摘要:
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。
李新福. 组合降维技术在中文网页分类中的应用[J]. 计算机工程与应用, 2007, 43(24): 169-171.
LI Xin-fu. Web page categorization based on LSA and features selection[J]. Computer Engineering and Applications, 2007, 43(24): 169-171.