计算机工程与应用 ›› 2013, Vol. 49 ›› Issue (2): 184-187.
王超学1,潘正茂1,董丽丽1,马春森2,张 星1
WANG Chaoxue1, PAN Zhengmao1, DONG Lili1, MA Chunsen2, ZHANG Xing1
摘要: 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。