计算机工程与应用 ›› 2009, Vol. 45 ›› Issue (12): 153-156.DOI: 10.3778/j.issn.1002-8331.2009.12.050
李春贵,王 萌,孙自广,王晓荣,张增芳
LI Chun-gui,WANG Meng,SUN Zi-guang,WANG Xiao-rong,ZHANG Zeng-fang
摘要: 决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。