随机森林针对小样本数据类权重设置

doi:10.3778/j.issn.1002-8331.2009.26.038

计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (26): 131-134.DOI: 10.3778/j.issn.1002-8331.2009.26.038

随机森林针对小样本数据类权重设置

李建更，高志坤

北京工业大学人工智能与机器人研究所，北京 100124

收稿日期:2008-05-15 修回日期:2008-09-01 出版日期:2009-09-11 发布日期:2009-09-11
通讯作者: 李建更

Setting of class weights in random forest for small-sample data

LI Jian-geng，GAO Zhi-kun

Institute of Artificial Intelligence and Robotics，Beijing University of Technology，Beijing 100124，China

Received:2008-05-15 Revised:2008-09-01 Online:2009-09-11 Published:2009-09-11
Contact: LI Jian-geng

摘要/Abstract

摘要： 随机森林已经被证明是一种高效的分类与特征选择方法。尽管参数的设置对结果影响较小，但合适的参数可以使分类器得到理想的效果。主要针对癌症研究中小样本不均衡数据的分类和特征选择问题，研究了随机森林中类权重的设置。为了比较在不同的类权重下特征选择的效果，同时使用支持向量机（Support Vector Machine，SVM）方法。最终结果显示最优的类权重是不确定的。最后总结出几条规律指导研究者选择合适的权重使分类和特征选择效果得到改善。

关键词: 随机森林, 类权重, 小样本, 支持向量机, 特征选择

Abstract: Random forest has been proved to be an efficient algorithm for classification and feature selection in bioinformatics.Although the effect of parameter setting on results is very limited，a group of appropriate parameters can generate excellent performance.This paper focuses on the setting of class weights in random forest to deal with classification and feature selection problems of unbalanced small-sample data and determines the optimal class weight.In order to compare the performance of feature selection with different weights，SVM is applied in the paper.The results show that optimal class weight is variable and cannot form a standard.However，people can find some weights with which not only classification but also feature selection can get better performance.

Key words: random forest, class weight, small-sample, Support Vector Machine（SVM）, feature selection

中图分类号:

TP391

李建更，高志坤. 随机森林针对小样本数据类权重设置[J]. 计算机工程与应用, 2009, 45(26): 131-134.

LI Jian-geng，GAO Zhi-kun. Setting of class weights in random forest for small-sample data[J]. Computer Engineering and Applications, 2009, 45(26): 131-134.

[1]	高一锴，彭力，徐龙壮. 改进AFSA算法优化TWSVM的火焰识别方法[J]. 计算机工程与应用, 2021, 57(8): 204-213.
[2]	祝钧桃，姚光乐，张葛祥，李军，杨强，王胜，叶绍泽. 深度神经网络的小样本学习综述[J]. 计算机工程与应用, 2021, 57(7): 22-33.
[3]	李莉，纪欣沅，宋嵩. 回环软件缺陷数量预测模型[J]. 计算机工程与应用, 2021, 57(7): 158-163.
[4]	韩卫宇，程龙生. 结合马田系统-SVM的滚动轴承故障模式分类研究[J]. 计算机工程与应用, 2021, 57(6): 239-246.
[5]	李静星，杨有龙. 针对高维数据的马尔科夫毯特征选择[J]. 计算机工程与应用, 2021, 57(6): 58-66.
[6]	杨晔民，张慧军，张小龙. 随机森林的可解释性可视分析方法研究[J]. 计算机工程与应用, 2021, 57(6): 168-175.
[7]	雷恒林，古兰拜尔·吐尔洪，买日旦·吾守尔，张东梅. 新奇检测综述[J]. 计算机工程与应用, 2021, 57(5): 47-55.
[8]	温杰彬，杨文忠，马国祥，张志豪，李海磊. 基于Apex帧光流和卷积自编码器的微表情识别[J]. 计算机工程与应用, 2021, 57(4): 127-133.
[9]	李俊侠，张秦，郑桂妹. 超宽带雷达人体姿态识别综述[J]. 计算机工程与应用, 2021, 57(3): 14-23.
[10]	熊健，覃仁超，何梦乙，刘建兰，唐风扬. 改进随机森林在Android恶意软件检测中的应用[J]. 计算机工程与应用, 2021, 57(3): 130-136.
[11]	徐先峰，蔡路路，张丽. 融合MLP和DBN的光伏发电预测算法[J]. 计算机工程与应用, 2021, 57(3): 266-272.
[12]	陈富健，谢维信，夏婷. 基于LCT+的自适应抗遮挡目标跟踪算法[J]. 计算机工程与应用, 2021, 57(22): 190-198.
[13]	林炜星，王宇嘉，陈万芬，梁海娜. 基于多因子粒子群的高维数据特征选择算法[J]. 计算机工程与应用, 2021, 57(22): 199-207.
[14]	李珑珠，林耀进，吕彦，卢舜，王晨曦. 利用邻域信息交互的在线流特征选择算法[J]. 计算机工程与应用, 2021, 57(21): 102-108.
[15]	安磊，韩忠华，林硕，尚文利. 面向网络入侵检测的GAN-SDAE-RF模型研究[J]. 计算机工程与应用, 2021, 57(21): 155-164.

随机森林针对小样本数据类权重设置

Setting of class weights in random forest for small-sample data

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics