用于不均衡数据集分类的KNN算法

计算机工程与应用 ›› 2011, Vol. 47 ›› Issue (28): 143-145.

• 数据库、信号与信息处理 • 上一篇下一篇

用于不均衡数据集分类的KNN算法

孙晓燕，张化祥，计华

山东师范大学信息科学与工程学院，济南 250014

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2011-10-01 发布日期:2011-10-01

Improved KNN algorithm in classification of imbalanced data sets

SUN Xiaoyan，ZHANG Huaxiang，JI Hua

Department of Information Science and Engineering，Shandong Normal University，Jinan 250014，China

Received:1900-01-01 Revised:1900-01-01 Online:2011-10-01 Published:2011-10-01

摘要/Abstract

摘要： 针对KNN在处理不均衡数据集时，少数类分类精度不高的问题，提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本，若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离，则认为是有效样本，并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试，实验结果表明，该方法与KNN算法中应用随机抽样相比，在提高少数类的分类精度方面取得了较好的效果。

关键词: 不均衡数据集, K最近邻居（KNN）算法, 过抽样, 交叉算子

Abstract: When the KNN algorithm is used to deal with imbalanced data sets，it has poor performance in the minority class prediction accuracy.An improved algorithm（G-KNN） is proposed to solve this problem.For the minority class samples，this algorithm uses the crossover operator and mutation operator to generate some of the new minority class samples.One new sample is considered valid，only if its Euclidean distance to parent is less than the maximum distance between parents.Then this valid sample is used to product the minority class samples in the next round of the process.The experimental results，which are tested on the UCI data sets，show that this algorithm is superior to KNN algorithm in the application of random over-sampling in improving the classification accuracy of the minority class.

Key words: imbalanced data sets, K-Nearest Neighbor（KNN） algorithm, over-sampling, crossover

孙晓燕，张化祥，计华. 用于不均衡数据集分类的KNN算法[J]. 计算机工程与应用, 2011, 47(28): 143-145.

SUN Xiaoyan，ZHANG Huaxiang，JI Hua. Improved KNN algorithm in classification of imbalanced data sets[J]. Computer Engineering and Applications, 2011, 47(28): 143-145.

[1]	吴聪聪，贺毅朝，赵建立. 求解折扣{0-1}背包问题的新遗传算法[J]. 计算机工程与应用, 2020, 56(7): 57-66.
[2]	刘树栋，张可. 类别不均衡学习中的抽样策略研究[J]. 计算机工程与应用, 2019, 55(21): 1-17.
[3]	杨小健，徐小婷，李荣雨. 求解高维优化问题的遗传鸡群优化算法[J]. 计算机工程与应用, 2018, 54(11): 133-139.
[4]	孙照兴，何劲松. 基于结构矩阵的电路网表编码方法的研究[J]. 计算机工程与应用, 2017, 53(20): 148-153.
[5]	施文章1，韩伟1，戴睿闻2. 模拟退火下布谷鸟算法求解车间作业调度问题[J]. 计算机工程与应用, 2017, 53(17): 249-253.
[6]	骆自超，金隼，邱雪峰. 考虑类内不平衡的谱聚类过抽样方法[J]. 计算机工程与应用, 2014, 50(11): 120-125.
[7]	王晓博，任春玉，李海晨. 多车型开放式车辆路线问题的混合启发式算法[J]. 计算机工程与应用, 2013, 49(7): 243-247.
[8]	吴磊1，房斌1，刁丽萍2，陈静1，谢娜娜1. 融合过抽样和欠抽样的不平衡数据重抽样方法[J]. 计算机工程与应用, 2013, 49(21): 172-176.
[9]	谢娜娜，房斌，吴磊. 不均衡数据集上文本分类方法研究[J]. 计算机工程与应用, 2013, 49(20): 118-121.
[10]	刘淑聪，杨敬松，宋燕星. 过抽样混沌映射在语音通信中的应用研究[J]. 计算机工程与应用, 2013, 49(2): 119-121.
[11]	李书全1，孙雪1，孙德辉1，边伟朋2. 遗传算法中的交叉算子的述评[J]. 计算机工程与应用, 2012, 48(1): 36-39.
[12]	孟庆莹1，王联国2. 基于邻域正交交叉算子的混合蛙跳算法[J]. 计算机工程与应用, 2011, 47(36): 54-56.
[13]	江巧永，高岳林. 融合Pareto邻域交叉算子的多目标分布估计算法[J]. 计算机工程与应用, 2011, 47(28): 38-41.
[14]	王银年，葛洪伟. 求解TSP问题的改进模拟退火遗传算法[J]. 计算机工程与应用, 2010, 46(5): 44-47.
[15]	葛洪伟，王银年 . 求解VRPSDP问题的改进模拟退火遗传算法[J]. 计算机工程与应用, 2010, 46(30): 36-39.

用于不均衡数据集分类的KNN算法

Improved KNN algorithm in classification of imbalanced data sets

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics