计算机工程与应用 ›› 2021, Vol. 57 ›› Issue (2): 91-96.DOI: 10.3778/j.issn.1002-8331.1910-0218
孟东霞,李玉鑑
MENG Dongxia,LI Yujian
摘要:
针对现有过采样方法存在的易引入噪声点、合成样本重叠的问题,提出一种基于自然最近邻的不平衡数据过采样方法。确定少数类样本的自然最近邻,每个样本的近邻个数由算法自适应计算生成,反映了样本分布的疏密程度。基于自然近邻关系对少数类样本聚类,由位于同一类簇中密集区域的核心点和稀疏区域的非核心点生成新样本。在二维合成数据集和UCI数据集上的对比实验验证了该方法的可行性和有效性,提高了不平衡数据的分类精度。