计算机工程与应用 ›› 2012, Vol. 48 ›› Issue (1): 166-169.
熊忠阳,付玲玲,张玉芳
XIONG Zhongyang, FU Lingling, ZHANG Yufang
摘要: 对高维特征集的降维是文本分类的一个主要问题。在分析现有特征降维方法的基础上,借助《知网》提出一种新的二次降维方法:采用传统的特征选择方法提取一个候选特征集合;利用《知网》对候选集合中的特征项进行概念映射,把大量底层分散的原始特征项替换成少量的高层概念进行第二次特征降维。实验表明,这种方法可以在减少文本语义信息丢失的前提下,有效地降低特征空间维数,提升文本分类的准确度。