针对不平衡数据的过采样和随机森林改进算法

doi:10.3778/j.issn.1002-8331.1908-0338

计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (11): 39-45.DOI: 10.3778/j.issn.1002-8331.1908-0338

针对不平衡数据的过采样和随机森林改进算法

张家伟，郭林明，杨晓梅

四川大学电气工程学院，成都 610000

出版日期:2020-06-01 发布日期:2020-06-01

Improved Oversampling and Random Forest Algorithm for Imbalanced Data

ZHANG Jiawei, GUO Linming, YANG Xiaomei

School of Electrical Engineering, Sichuan University, Chengdu 610000, China

Online:2020-06-01 Published:2020-06-01

摘要/Abstract

摘要：

针对数据不平衡带来的少数类样本识别率低的问题，提出通过加权策略对过采样和随机森林进行改进的算法，从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术（Synthetic Minority Oversampling Technique，SMOTE）降低数据不平衡度，每个少数类样本根据其相对于剩余样本的欧氏距离分配权重，使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果，并赋予每棵树相应的权重，使分类能力更好的树在投票阶段有更大的投票权，提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明，与未改进算法相比，改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。

关键词: 数据不平衡, 合成少数类过采样技术（SMOTE）, Kappa系数, 随机森林

Abstract:

To solve the problem of low recognition rate for minority samples due to imbalanced data, an improved algorithm based on weighted oversampling and random forest is proposed to reduce the influence of imbalanced data on classifier. In data preprocessing step, weighted oversampling based on Synthetic Minority Oversampling Technique（SMOTE） is applied to reduce the data imbalanced rate. Weights are determined by the Euclidean distance between each sample and the rest in minority class, new samples with different number are generated by weighting samples of minority class. To improve the random forest, Kappa coefficient is used to evaluate the classification performance of decision tree, and corresponding weight is given to each tree. It makes trees with better performance having more voting rights at final voting stage. Experiments on KEEL datasets show that the proposed algorithm improves the classification accuracy for minority samples and the classification performance of the imbalanced datasets compared with unimproved algorithm.

Key words: imbalanced data, Synthetic Minority Oversampling Technique（SMOTE）, Kappa coefficient, random forest

张家伟，郭林明，杨晓梅. 针对不平衡数据的过采样和随机森林改进算法[J]. 计算机工程与应用, 2020, 56(11): 39-45.

ZHANG Jiawei, GUO Linming, YANG Xiaomei. Improved Oversampling and Random Forest Algorithm for Imbalanced Data[J]. Computer Engineering and Applications, 2020, 56(11): 39-45.

[1]	杨晔民，张慧军，张小龙. 随机森林的可解释性可视分析方法研究[J]. 计算机工程与应用, 2021, 57(6): 168-175.
[2]	熊健，覃仁超，何梦乙，刘建兰，唐风扬. 改进随机森林在Android恶意软件检测中的应用[J]. 计算机工程与应用, 2021, 57(3): 130-136.
[3]	安磊，韩忠华，林硕，尚文利. 面向网络入侵检测的GAN-SDAE-RF模型研究[J]. 计算机工程与应用, 2021, 57(21): 155-164.
[4]	武炜杰，张景祥. 融合分类信息的随机森林特征选择算法及应用[J]. 计算机工程与应用, 2021, 57(17): 147-156.
[5]	闫政旭，秦超，宋刚. 基于Pearson特征选择的随机森林模型股票价格预测[J]. 计算机工程与应用, 2021, 57(15): 286-296.
[6]	王俊红，郭亚慧. 面向动态数据块的非平衡数据流分类算法[J]. 计算机工程与应用, 2021, 57(13): 124-129.
[7]	安葳鹏，程小博，刘雨. Fleiss’ Kappa系数在贝叶斯决策树算法中的应用[J]. 计算机工程与应用, 2020, 56(7): 137-140.
[8]	顾兆军，吴优，赵春迪，周景贤. 流量的集成学习与重采样均衡分类方法[J]. 计算机工程与应用, 2020, 56(6): 86-91.
[9]	朱迪，陈丹伟. 基于密度聚类和随机森林的移动应用识别技术[J]. 计算机工程与应用, 2020, 56(4): 63-68.
[10]	胡青渝，刘广臣. DBN在蛋白质编码区识别问题中的应用研究[J]. 计算机工程与应用, 2020, 56(4): 247-255.
[11]	张忠林，冯宜邦，赵中恺. 一种基于SVM的非均衡数据集过采样方法[J]. 计算机工程与应用, 2020, 56(23): 220-228.
[12]	李凌，顾晓梅，刘子豪. 多子域随机森林在情境感知推荐中的应用研究[J]. 计算机工程与应用, 2020, 56(22): 132-141.
[13]	罗计根，杜建强，聂斌，李欢，聂建华，陈裕凤. 一种聚类欠采样策略的随机森林优化方法[J]. 计算机工程与应用, 2020, 56(22): 166-172.
[14]	李杰其，胡良兵. 基于机器学习的设备预测性维护方法综述[J]. 计算机工程与应用, 2020, 56(21): 11-19.
[15]	程振京，程耀东，陈刚，汪璐，李海波，胡庆宝. 基于随机森林的高能物理数据放置策略[J]. 计算机工程与应用, 2020, 56(21): 60-64.

针对不平衡数据的过采样和随机森林改进算法

Improved Oversampling and Random Forest Algorithm for Imbalanced Data

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics