计算机工程与应用 ›› 2017, Vol. 53 ›› Issue (11): 172-177.DOI: 10.3778/j.issn.1002-8331.1604-0206
姚彬修1,倪建成2,于苹苹1,曹 博1,李淋淋1
YAO Binxiu1, NI Jiancheng2, YU Pingping1, CAO Bo1, LI Linlin1
摘要: 针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和[F1]值都得到了一定的提高。