计算机工程与应用 ›› 2016, Vol. 52 ›› Issue (16): 51-55.
靳 燕1,彭新光2
JIN Yan1, PENG Xinguang2
摘要: 针对代价敏感思想在类不平衡问题中的传统代价给定方式,提出了分类性能需求引导代价优化的因子量化方法。分类性能需求表示为相关于代价因子[c]的正负类分类性能指标函数式,为代价择优标准。应用遗传算法基于该标准在指定值域内寻优,得到最优代价因子,并将其代入代价敏感Boosting学习方法,产生基于给定分类性能的分类模型。折中分类性能的算法实现以正负类召回率的几何平均作为择优标准,选用了四类算法(基算法C4.5和ZeroR)依次在三组样本集上进行分类建模。与传统代价给定方式代入算法相比,寻优过程确定的代价因子代入AdaCost算法后,基于C4.5和ZeroR的分类器在TP与TN上的变化幅度依次为33.3%~200%、[-49%~-15.6%]和[-44.4%~-16.7%、]25%~400%。前者改善了正类误判情形,且未造成负类误判严重化;后者改善了负类严重误判情形,且正类召回率保持在0.5以上,分类性能达到较为均衡的状态。