计算机工程与应用 ›› 2008, Vol. 44 ›› Issue (20): 145-147.DOI: 10.3778/j.issn.1002-8331.2008.20.044
吕震宇1,林永民1,赵 爽1,陈景年2,朱卫东2
LV Zheng-yu1,LIN Yong-min1,ZHAO Shuang1,CHEN Jing-nian2,ZHU Wei-dong2
摘要: 文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。