计算机工程与应用 ›› 2020, Vol. 56 ›› Issue (17): 136-141.DOI: 10.3778/j.issn.1002-8331.1908-0337
岳鹏,侯凌燕,杨大利,佟强
YUE Peng, HOU Lingyan, YANG Dali, TONG Qiang
摘要:
针对医学疾病数据中存在特征冗余的问题,以XGBoost特征选择方法度量特征重要度,删除冗余特征,选择最佳分类特征;针对识别精度不高的问题,使用Stacking方法集成XGBoost、LightGBM等多种异质分类器,并在异质分类器中引入性能更好的CatBoost分类器提升集成分类器分类精度。为了避免过拟合,选择基层分类器输出的分类概率作为高层分类器输入。实验结果表明,提出的基于XGBoost特征选择的XLC-Stacking方法相比当前主流分类算法以及单一的XGBoost算法和Stacking方法有较大提升,识别的准确率和F1-Score达到97.73%和98.21%,更加适用于疾病的诊断。