计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (17): 68-75.DOI: 10.3778/j.issn.1002-8331.1804-0307
张明,胡晓辉,吴嘉昕
ZHANG Ming, HU Xiaohui, WU Jiaxin
摘要: 针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。