计算机工程与应用 ›› 2023, Vol. 59 ›› Issue (20): 77-84.DOI: 10.3778/j.issn.1002-8331.2207-0443
罗计根,熊玲珠,杜建强,聂斌,熊旺平,李郅琴
LUO Jigen, XIONG Lingzhu, DU Jianqiang, NIE Bin, XIONG Wangping, LI Zhiqin
摘要: 特征的相关和冗余,会直接影响随机森林随机抽取特征的质量,导致随机森林的收敛性减弱,降低随机森林模型的准确度、泛化能力及性能。基于此,提出一种融合近似马尔科夫毯的随机森林优化算法,该算法利用近似马尔科夫毯构建相似特征组,再从每个相似组中按比例抽取特征形成单棵决策树的特征子集,重复上述过程直至达到随机森林规模。该算法可以在保证随机森林特征的多样性前提下,利用近似马尔科夫毯消除特征间的相关性和冗余性,提高随机抽取特征的质量。通过在12组不同维度UCI数据集实验对比表明:融合近似马尔科夫毯的随机森林在一定程度上可以消除特征相关性和冗余性,提高模型的各项评价指标,泛化能力增强,更适用于高维数据。