计算机工程与应用 ›› 2019, Vol. 55 ›› Issue (23): 125-130.DOI: 10.3778/j.issn.1002-8331.1808-0266
李欢,熊梦莹,聂斌,杜建强,周丽,黄强
LI Huan, XIONG Mengying, NIE Bin, DU Jianqiang, ZHOU Li, HUANG Qiang
摘要: 受特征重要性不平衡的影响,随机森林可能随机抽取到弱特征子集,从而生成“弱决策树”,进而导致模型的收敛速度降低、模型的性能下降。鉴于此,提出融合因子分析的随机森林模型,主要创新在于采用因子分析法构建特征组,再按特征个数比随机抽取特征形成每个分裂节点的候选子集。以模型的分类预测、回归拟合、特征重要性分析的准确率和运行时间为评价指标,选取了9组UCI数据综合考察模型的整体性能,并与决策树、随机森林对比实验。结果表明:融合因子分析的随机森林模型基本消除了准确率低的决策树产生,提高了模型的准确率和收敛速度,泛化性更强,更加有利于高维大数据,可行有效。